De mult timp, cele mai avansate modele de inteligență artificială funcționează, în esență, ca niște imitatori extrem de buni: procesează volume mari de exemple create de oameni sau rezolvă exerciții formulate de aceștia. Acest lucru le permite să recunoască tipare și să genereze texte, cod sau imagini, însă le și menține într-o dependință de date preexistente. Dacă setul de date are lacune, modelul le preia. Dacă temele sunt limitate, progresul se plafonează.
De aici provine fascinația pentru o idee aparent simplă, dar cu implicații majore: un model care învață mai „uman”, adică își formulează singur întrebări interesante și încearcă să le răspundă, fără a aștepta instrucțiuni externe. Un proiect realizat de cercetători de la Universitatea Tsinghua, Beijing Institute for General Artificial Intelligence (BIGAI) și Pennsylvania State University propune o astfel de soluție: un sistem care își generează provocări, le rezolvă, verifică răspunsurile și folosește rezultatul pentru perfecționare.
Sistemul se numește Absolute Zero Reasoner (AZR) și se bazează pe observația: pentru ca inteligența artificială să poată crea propriile întrebări, este necesar un mod obiectiv de a evalua dacă răspunsurile sunt corecte sau nu. În multe domenii (opinie, stil, interpretare), „corect” este discutabil. În programare și matematică, verificarea poate fi clară: se rulează codul și se verifică dacă trece testele.
AZR utilizează un model de procesare a limbajului în trei etape, într-o buclă de auto-învățare. Mai întâi, generează probleme de programare în Python, dificile, dar soluționabile. Apoi, încearcă să le rezolve. În final, verifică soluțiile rulând codul, iar succesul sau insuccesul devine semnal pentru antrenament: modelul își îmbunătățește atât formularea întrebărilor, cât și găsirea soluțiilor solide, construindu-și propriul „curriculum” de învățare și ajustându-se continuu.
Aspectul esențial nu este doar generarea de cod, ci faptul că programarea oferă un criteriu automat de validare. Atunci când o funcție returnează rezultate greșite sau halucinează în explicații, diferența devine evidentă. AZR transformă această verificare strictă într-un instrument de antrenament: nu necesită evaluatori umani, deoarece lumea codului îi indică rapid dacă răspunsul este corect sau nu.
De ce conceptul de „self-play” este asociat cu inteligența superioară și unde apare limita
Cercetătorii implicați compară această metodă cu modul în care învață oamenii: inițial imită, apoi își formulează propriile întrebări și, în final, pot depăși nivelul celor care le-au fost mentori. În inteligența artificială, această perspectivă promite o ieșire din dependența de date curate, etichetate și costisitoare. Dacă modelul își creează singur provocările și verifică soluțiile, procesul poate fi extins aproape nelimitat, în special în domenii cu verificare clară.
„Self-play” nu este o idee nouă; conceptul a mai fost explorat în cercetarea AI, sub diverse forme, prin învățare bazată pe curiozitate, autonomie și creșterea dificultății. Noutatea actuală o reprezintă combinația între modele mari de limbaj și utilizarea unui feedback simplu, prin rularea de cod, ceea ce facilitează aplicarea pe scară largă. În plus, AZR are și o caracteristică interesantă: pe măsură ce modelul devine mai puternic, complexitatea problemelor pe care și le generează crește, ca o bandă de alergare care se accelerează automat.
Aici intervine și „cârligul”: dacă un sistem poate să-și creeze singur provocări tot mai avansate și să se autocorecteze, teoretic, poate ajunge să învețe concepte pe care oamenii nu le-au predat explicit. Unii cercetători consideră că această metodă reprezintă o cale către sisteme care depășesc simplele replicări și intră în faze de descoperire. Totuși, nu trebuie să se tragă concluzii premature despre o superinteligență; în varianta actuală, metoda funcționează eficient deoarece există un arbitru clar: compilatorul și rularea codului.
Rezultatele obținute și importanța modelelor open-source
Echipa a testat această metodă pe modele open-source cu 7 miliarde și, respectiv, 14 miliarde de parametri (Qwen), constatând că AZR a îmbunătățit considerabil abilitățile de codare și raționament. Implicația majoră este că nu vorbim doar despre creșterea cantității de date, ci despre o metodă diferită de generare a datelor de antrenament și de creștere a nivelului de dificultate, fără intervenție umană directă.
De asemenea, se sugerează că, în anumite condiții, modelele antrenate astfel pot depăși alte modele dezvoltate cu date atent selectate de experți. Dacă aceste rezultate se confirmă în evaluări solide și repetabile, ar putea reprezenta o evoluție importantă în învățarea autonomă, rivalizând cu procesul tradițional de curriculum. Pentru ecosistem, înseamnă și reducerea dependenței de laboratoare cu resurse costisitoare și date inaccesibile.
Totalitatea acestor aspecte subliniază posibilitatea dezvoltării unor modele AI capabile să evolueze independent, prin auto-generare și auto-verificare, în limitele verificărilor automate.
Limitări și pași următori: de la cod la agenți autonomi
Cea mai mare provocare, recunoscută de cercetători, constă în verificarea sarcinilor dificil de evaluat automat, precum navigarea pe internet, organizarea de fișiere sau redactarea de email-uri complexe. În astfel de cazuri, criteriile de validare devin mai vagi, fiind nevoie de teste, evaluatori sau simulări realiste ale mediului de acțiune.
O direcție de dezvoltare vizează crearea de „agenți AI”, capabili să utilizeze unelte, să navigheze interfețe și să ia decizii pas cu pas. Pentru a păstra spiritul AZR, este esențial un mecanism care să evalueze dacă acțiunile agentului sunt corecte; ar putea fi un simulator sau un set de reguli. Totuși, există riscul ca verificatorii inperfecți să fie păcăliți, și astfel, agentul să învețe să evadeze controlul, nu să rezolve problema. În cazul codului, această situație apare mai rar, deoarece rezultatul final e executabil și verificabil automat.
Contextul actual al subiectului este întreținut de două presiuni: creșterea costurilor și raritatea datelor de calitate și așteptările tot mai mari privind performanța modelelor. În această situație, metodele de generare auto-susținută a datelor devin atractive, dar necesită o disciplină strictă în crearea de verificatori fiabili, pentru a preveni „gaming-ul” și a asigura progresul real.
În concluzie, ideea de „modele care învață punându-și singure întrebări” reprezintă o schimbare de paradigmă: de la AI care doar adoptă lumea ca atare, la AI care își construiște propriul traseu de învățare, măcar în domeniile unde adevărul poate fi verificat automat. Pe măsură ce această direcție se maturizează, se vor dezvolta sisteme din ce în ce mai autonome, care nu doar răspund, ci experimentează, testează și se autocorectează, transformând discuția despre „copiat” versus „descoperire” într-un dialog mult mai provocator și captivant.















