Calcolo del tempo di test in scala, o offrire un modello linguistico di grandi dimensioni per il generatore
(LLM) calcolo aggiuntivo durante l'inferenza, in genere si avvale dell'aiuto di esterni
valutatori non generativi (i.e., modelli di ricompensa). Contemporaneamente, Giudici LLM,
modelli formati per generare valutazioni e critiche (spiegazioni) nel naturale
lingua, stanno diventando sempre più popolari nella valutazione automatica. Nonostante
giudicare i successi empirici, la loro efficacia come valutatori durante il test
le impostazioni di ridimensionamento sono in gran parte sconosciute. In questo documento, presentiamo il Giudice
Valutazione per il dimensionamento del tempo di test (GETTI) segno di riferimento, che valuta il giudice
prestazioni in tre ambiti (ragionamento matematico, generazione del codice, e istruzioni
seguente) in tre impostazioni di attività: riclassificazione della risposta, trave a gradini
ricerca, e perfezionamento della risposta basato sulla critica. Valutiamo 10 giudice diverso
modelli (7Parametri del B-70B) per 8 diversi modelli di generatori di base (6.7B-72B
parametri). Il nostro benchmark mostra che mentre i giudici sono competitivi con il risultato
premiare i modelli nel riclassificazione, sono costantemente peggiori della ricompensa del processo
modelli nelle procedure di ricerca del fascio. Inoltre, sebbene unico per i giudici LLM,
le loro critiche al linguaggio naturale sono attualmente inefficaci nel guidare il processo
generatore verso risposte migliori.
Questo articolo esplora i giri e le loro implicazioni.
Scarica PDF:



