Un specialist în securitate cibernetică a descoperit o vulnerabilitate în comportamentul modelului de inteligență artificială ChatGPT. Acesta a reușit să obțină chei reale de activare Windows, inclusiv una asociată cu o instituție bancară.
Potrivit unui raport detaliat al lui Marco Figueroa, manager tehnic al programului de recompense pentru găsirea vulnerabilităților 0DIN GenAI, această slăbiciune a fost exploatată într-un mod simplu: un joc de ghicit.
Metoda a utilizat o strategie de manipulare socială adaptată conversației. Cercetătorul a solicitat modelului să participe la un joc în care trebuia să ghicească o secvență de caractere, o cheie activatoare software.
Regula jocului era clară: ChatGPT trebuia să răspundă doar cu „da” sau „nu” la întrebări, iar la final, dacă cercetătorul spunea „renunț”, modelul trebuia să dezvăluie cheia respectivă.
După mai multe încercări, cercetătorul a solicitat „renunț”. În acest moment, AI-ul a furnizat o secvență validă, o cheie de produs Windows. Conform capturilor de ecran, printre acestea s-a aflat și o licență ce ar fi aparținut băncii Wells Fargo.
Limitări ale IA: filtrele de securitate pot fi depășite
O explicație posibilă este că anumite chei Windows au fost incluse, accidental, în datele folosite pentru antrenarea modelului AI.
De asemenea, metoda a exploatat o slăbiciune logică: AI-ul nu a evaluat contextul ca fiind o solicitare rău intenționată, considerând-o doar parte a unui joc.
O altă tehnică menționată implică ascunderea unor informații sensibile în cod HTML, o metodă care poate ocoli filtrele inițiale ale modelului AI.
Aceste descoperiri ridică întrebări despre capacitatea modelelor lingvistice de a înțelege nu doar cuvintele, ci și intențiile din spatele cererilor.
Marco Figueroa a avertizat că astfel de vulnerabilități pot fi utilizate pentru accesarea conținutului protejat sau obținerea de date sensibile. El recomandă dezvoltarea unor metode mai robuste de validare a contextului și implementare de mecanisme de protecție multiple în AI.















