
Nvidia a dezvoltat un sistem prin care agenți AI pot antrena roboți reali pentru sarcini delicate, reducând implicarea umană în proces. Experimentul, realizat în colaborare cu cercetători de la Carnegie Mellon University și University of California, Berkeley, a testat eficacitatea AI în instruirea robotilor pentru manipularea obiectelor fizice.
Funcționarea sistemului ENPIRE
Sistemul, numit ENPIRE, funcționează ca un cadru software care permite agenților AI să utilizeze instrumente, să analizeze rezultate și să modifice cod. Agenții AI pot verifica și corecta greșeli, ajustând comportamentul roboților singuri, fără intervenție manuală constantă.
Testare pe roboți reali în laborator
Cercetările s-au extins dincolo de mediul simulativ, robotii fiind puși să execute sarcini fizice în laborator. Printre acestea se numără provocarea Push-T, în care un robot trebuie să mute un obiect în formă de T, și sarcini precum organizarea pinilor, legarea și tăierea colierelor de plastic sau introducerea și scoaterea unui GPU dintr-un slot de pe placă de bază.
Exemplu concret: inserarea unui GPU
Un robot a fost antrenat să introducă un GPU într-un slot îngust și apoi să îl scoată, pentru a relua testul. Această sarcină necesită precizie și control al forței, fiind dificil de realizat chiar și pentru roboți avansați.
Antrenament bazat pe cicluri de testare și îmbunătățire
ENPIRE permite agenților AI să ruleze repetitive cicluri de testare, analizând loguri și modificând algoritmi. Ei pot ajusta politicile de control ale roboților, învățând din eșecuri și îmbunătățindu-și performanța în mod autonom.
Rezultate și performanțe
Cercetătorii au observat rate de succes de până la 99% pentru diverse sarcini de manipulare, uneori mai rapide decât metodele manuale. În cazul organizării pinilor, agenții AI au atins aproape 100% succes într-un timp mai scurt decât metodele cu intervenție umană.
Impactul echipelor multiple de agenți AI
O echipă formată din opt agenți a realizat sarcina Push-T cu o acuratețe de 99% în circa două ore. Două echipe de patru agenți au atins același rezultat în trei ore, respectiv aproape cinci ore cu un singur agent. Aceste date indică faptul că mai mulți agenți pot explora simultan strategii multiple și pot accelera procesul de învățare.
Limitări identificate în experiment
Robotii nu au fost utilizați continuu; uneori, brațele robotice stăteau inactive în timp ce agenții AI analizau loguri sau scriau cod. Resursele consumate, inclusiv tokenii, au crescut în cazul echipelor mai mari, iar o parte din timp a fost alocată pentru schimbul de informații între agenți, mai ales pentru rezumarea ideilor.
Aceste rezultate demonstrează potențialul utilizării AI pentru a automatiza antrenamentul roboților în sarcini precise și delicate, dar evidențiază și limitările legate de resurse și eficiență.














