
Când asculți o poveste, ai impresia că „prinzi” sensul instantaneu: propozițiile curg natural, iar mintea pare să țină pasul fără dificultate. Totuși, un nou studiu sugerează că, în realitate, înțelegerea nu apare ca un „clic” rapid, ci se construiește treptat, în pași succesivi, într-un mod asemănător funcționării modelelor moderne de inteligență artificială pentru limbaj.
Cercetătorii au monitorizat activitatea cerebrală în timpul ascultării unui podcast de circa 30 de minute și au comparat „amprenta” neurală a înțelegerii cu reprezentările interne generate de modele de tip GPT. Rezultatul: pe măsură ce sensul se rafinează în creier, răspunsurile neuronale par să se alineze cu straturile din ce în ce mai „profunde” ale unui model lingvistic. Concluzia revelatoare indică faptul că modul în care îți formezi înțelegerea din vorbire ar putea fi mai „statistic” și mai dependent de context decât ai crede.
Cum au monitorizat cercetătorii desfășurarea sensului în timp real
Echipa condusă de Ariel Goldstein (Universitatea Ebraică din Ierusalim), în colaborare cu specialiști de la Google Research și Princeton, a utilizat electrocorticografia (ECoG) — o metodă ce înregistrează activitatea electrică direct de la suprafața creierului prin electrozi implantați în scop medical. Avantajul principal este rezoluția temporală extrem de precisă, permițând observarea, aproape „cadru cu cadru”, a reacției creierului la fiecare cuvânt și la contextul acumulat.
Participanții au ascultat o poveste audio, iar cercetătorii au modelat semnalele ECoG comparându-le cu reprezentările extrase din modele lingvistice avansate, precum arhitecturile transformer utilizate de GPT-2 și Llama 2. Scopul a fost să verifice dacă „momentul” apariției anumitor modele în activitatea cerebrală (mai devreme sau mai târziu) corespunde cu “adâncimea” stratului în modelul lingvistic (straturi superficiale versus straturi profunde).
Un aspect important a fost localizarea: corespondența între semnalele neurale tardive și straturile complexe ale modelelor a fost semnificativă în regiunile clasice implicate în limbaj, precum aria lui Broca. Acest lucru susține ideea că zonele cerebrale dedicate integrării sintaxei, intenției și sensului contextual „lucrează” mai intens pe măsură ce propoziția capătă claritate și ambiguitățile se clarifică.
De ce seamănă cu arhitectura modelelor de limbaj și ce contrazice teoriile tradiționale
Modelul transformer funcționează în straturi: la început, procesează semnale simple (precum caracteristicile de formă ale cuvintelor și relațiile locale), apoi combină treptat aceste informații pentru a genera reprezentări dependente de context. În esență, același cuvânt poate avea semnificații diferite în funcție de fraza în care apare, iar această dependință devine mai evidentă în straturile mai avansate.
Studiul indică faptul că și creierul face ceva similar: semnalele inițiale se aliniază mai bine cu straturile „superficiale” ale modelelor, în timp ce semnalele din etapele ulterioare — când propoziția începe să-și clarifice înțelesul — sunt mai apropiate de straturile „profunde”. Mesajul implică o critică subtilă față de viziunea clasică, rigida, asupra limbajului ca fiind un set de reguli fixe: înțelegerea pare să fie o construcție probabilistică, rafinată continuu în funcție de context.
De asemenea, autorii au testat și reprezentările tradiționale lingvistice, precum fonemele și morfemele, pentru explicarea dinamicii semnalelor neuronale. Rezultatele au arătat că reprezentările contextuale generate de modelele moderne explică mai bine variațiile observate, sugerând că, în fluxul natural al vorbirii, creierul integrează continuu contextul în loc să se bazeze pe etichete discrete.
Este important să nu interpretăm această comparație ca pe o identitate: modelele de limbaj nu au intenții, sentimente sau obiective biologice, ele optimizează doar predicțiile statistice. Când se vorbește despre corespondența între straturi și timp, face referire la similitudini în organizarea calculelor (o ierarhie de transformări), nu la o echivalență directă între creier și un chatbot. Diferențele majore rămân, de la modul de învățare până la modul de corectare a erorilor.
Implicațiile acestei paralelisme pentru neuroștiință și inteligența artificială
Un aspect esențial îl reprezintă metodologia: dacă un model de limbaj oferă reprezentări care pot prezice activitatea cerebrală în timpul ascultării, acesta devine un instrument relevant pentru cercetare. În loc să te bazezi pe ipoteze despre „unitățile” lingvistice, poți compara direct mai multe modele și straturi pentru a determina care descriu mai exact datele neurale, pe secunde și milisecunde.
S-a lansat și un set de date public, reprezentând înregistrări ECoG în timpul ascultării unui podcast, astfel încât comunitatea științifică să poată valida și extinde studiile. Astfel de date naturaliste sunt rare în neuroștiința limbajului, în special pentru că ECoG este utilizată de regulă în scopuri clinice, ceea ce sporește valoarea standardizării și accesibilității lor.
Privind această conexiune între AI și neuroștiință, rezultatele pot fi considerate un „pod” între computație și biologic: modelele de inteligență artificială oferă reprezentări calculabile, iar creierul poate fi perceput ca un standard biologic pentru înțelegerea în timp real. În viitor, astfel de legături pot influența dezvoltarea modelelor algoritmice și aplicabilitatea în domeniul medical, de la interfețe neuronale până la evaluarea tulburărilor de limbaj.
Totuși, concluziile trebuie interpretate cu prudență: studiile ECoG implică un număr limitat de participanți și un context clinic specific, iar similaritățile observate sunt corelaționale, nu dovada unor mecanisme identice. Chiar și așa, faptul că un model de limbaj, creat pentru predicția textului, rezonează cu dinamica temporală a înțelegerii umane reprezintă un semnal important: pentru limbaj, procesul de înțelegere, fie în creier, fie în șasiu, trece pas cu pas prin straturi contextuale adânci.














