Introduciamo la previsione delle preferenze assistita da modelli linguistici di grandi dimensioni (LAPP), UN
nuovo framework per l’apprendimento dei robot che consente un apprendimento efficiente, personalizzabile, E
acquisizione del comportamento espressivo con il minimo sforzo umano. A differenza di prima
approcci che si basano fortemente sull’ingegneria della ricompensa, manifestazioni umane,
cattura del movimento, o costose etichette di preferenza a coppie, LAPP fa grande leva
modelli linguistici (LLM) per generare automaticamente le etichette delle preferenze da raw
traiettorie stato-azione raccolte durante l'apprendimento per rinforzo (RL). Questi
le etichette vengono utilizzate per addestrare un predittore di preferenze online, che a sua volta guida
il processo di ottimizzazione delle politiche verso il soddisfacimento dei comportamenti di alto livello
specifiche fornite dall’uomo. Il nostro contributo tecnico chiave è il
integrazione di LLM nel ciclo di feedback RL attraverso il livello di traiettoria
previsione delle preferenze, consentendo ai robot di acquisire competenze complesse, tra cui
controllo sottile sui modelli di andatura e sul tempo ritmico. Valutiamo LAPP su a
insieme diversificato di locomozione quadrupede e compiti e spettacoli di manipolazione abile
che raggiunga un apprendimento efficiente, prestazioni finali più elevate, Più veloce
adattamento, e controllo preciso dei comportamenti di alto livello. In particolare, LAPP abilita
robot per padroneggiare compiti altamente dinamici ed espressivi come il quadrupede
salti mortali all'indietro, che rimangono fuori portata per il LLM standard generato o realizzato artigianalmente
ricompense. I nostri risultati evidenziano LAPP come una direzione promettente per la scalabilità
apprendimento robot basato sulle preferenze.
Questo articolo esplora i giri e le loro implicazioni.
Scarica PDF:



