Giudici valutatori come valutatori: Il benchmark JETTS dei LLM-as-Judges come valutatori del test-time scaling

Calcolo del tempo di test in scala, o offrire un modello linguistico di grandi dimensioni per il generatore
(LLM) calcolo aggiuntivo durante l'inferenza, in genere si avvale dell'aiuto di esterni
valutatori non generativi (i.e., modelli di ricompensa). Contemporaneamente, Giudici LLM,
modelli formati per generare valutazioni e critiche (spiegazioni) nel naturale
lingua, stanno diventando sempre più popolari nella valutazione automatica. Nonostante
giudicare i successi empirici, la loro efficacia come valutatori durante il test
le impostazioni di ridimensionamento sono in gran parte sconosciute. In questo documento, presentiamo il Giudice
Valutazione per il dimensionamento del tempo di test (GETTI) segno di riferimento, che valuta il giudice
prestazioni in tre ambiti (ragionamento matematico, generazione del codice, e istruzioni
seguente) in tre impostazioni di attività: riclassificazione della risposta, trave a gradini
ricerca, e perfezionamento della risposta basato sulla critica. Valutiamo 10 giudice diverso
modelli (7Parametri del B-70B) per 8 diversi modelli di generatori di base (6.7B-72B
parametri). Il nostro benchmark mostra che mentre i giudici sono competitivi con il risultato
premiare i modelli nel riclassificazione, sono costantemente peggiori della ricompensa del processo
modelli nelle procedure di ricerca del fascio. Inoltre, sebbene unico per i giudici LLM,
le loro critiche al linguaggio naturale sono attualmente inefficaci nel guidare il processo
generatore verso risposte migliori.

Questo articolo esplora i giri e le loro implicazioni.

Scarica PDF:

2504.15253v1

Giudici valutatori come valutatori: Il benchmark JETTS di LLM-as-Judges as Valutatori di ridimensionamento del tempo di test

Piattaforma on-line

Collegamenti

Verbalus Mater

Giudici valutatori come valutatori: Il benchmark JETTS di LLM-as-Judges as Valutatori di ridimensionamento del tempo di test

Giudici valutatori come valutatori: Il benchmark JETTS di LLM-as-Judges as Valutatori di ridimensionamento del tempo di test

Piattaforma on-line

Collegamenti

Verbalus Mater

Registrazione

Iscrizione

— INIZIA IL PROSSIMO CORSO ONLINE 15 GENNAIO -

La vera scienza dietro Viaggio nel tempo 25% DTO

La vera scienza dietro
Viaggio nel tempo
25% DTO