
În societatea contemporană, unde inteligența artificială este integrată tot mai mult în viața de zi cu zi, un nou raport semnalează un risc major. Asistenții virtuali AI, precum ChatGPT, Gemini sau Claude, pot fi ușor manipulați și pot furniza informații extrem de periculoase. Aceștia pot oferi instrucțiuni detaliate pentru activități ilegale, precum hacking, spălare de bani sau chiar fabricarea de explozibili.
Acest risc, conform cercetătorilor, nu mai este o amenințare teoretică. Este evident, iminent și profund îngrijorător, mai ales într-un context global în care IA avansează rapid, dar controlul său pare insuficient.
Studiul a fost realizat de profesorul Lior Rokach și dr. Michael Fire de la Universitatea Ben Gurion din Israel. Aceștia evidențiază existența unor „modele malefice” – variante ale sistemelor AI dezvoltate fără măsuri de siguranță adecvate sau cu filtre etice eliminate intenționat. Astfel de modele sunt promovate online ca fiind „eliberate de restricții”, capabile să răspundă fără rețineri la solicitări ilegale sau imorale.
Manipularea acestor modele se realizează prin formularea unor mesaje strategice, care îi determină pe asistenții virtuali să creadă că trebuie să asiste. Acești sisteme se confruntă cu un conflict intern: nevoia de utilitate se ciocnește cu regulile de siguranță. Când IA prioritizează utilitatea, filtrele de protecție devin ineficiente. Rezultatul este furnizarea de răspunsuri detaliate la întrebări care, teoretic, ar trebui blocate.
Pentru a demonstra gravitatea situației, cercetătorii au dezvoltat o metodă universală de manipulare, testată cu succes pe mai multe modele AI populare. Odată „compromise”, aceste sisteme au continuat să furnizeze informații periculoase, de la metode de a compromite o rețea informatică până la rețete pentru substanțe interzise sau metode de fraudă.
Reacția industriei: ezitantă și insuficientă
Deși raportul a fost adresat giganților tehnologici – inclusiv Meta, Microsoft, Google și Anthropic – răspunsurile primite au fost, la maximum, dezamăgitoare. Unele companii nu au reacționat, iar altele au explicat că astfel de acțiuni nu se încadrează în politicile lor de raportare a vulnerabilităților. Cu alte cuvinte, pericolul este recunoscut, dar nu este abordat cu seriozitatea necesară.
OpenAI, compania responsabilă cu ChatGPT, afirmă că lucrează continuu la perfecționarea filtrelor de siguranță. Noul lor model, o1, ar fi mai capabil să analizeze politicile de securitate, devenind astfel mai rezistent la manipulare. Însă, rezultatele practic ale testelor cercetătorilor par să contrazică aceste afirmații.
Experții solicită măsuri concrete: o filtrare mai riguroasă a datelor folosite pentru antrenarea modelelor, blocarea automată a solicitărilor riscante și dezvoltarea unor mecanisme care să le permită modelelor AI să „șteargă” informațiile periculoase învățate. De asemenea, modelele fără filtre ar trebui considerate la fel de periculoase ca și armele nedeclarate – o amenințare pentru securitate cu responsabilitate legală pentru dezvoltatori.
De ce ar trebui să te intereseze această problemă
Dacă consideri că acest subiect nu te afectează direct, gândește-te din nou. Trăim într-o eră în care accesul la asistenții virtuali AI este la o distanță minimă. Fie că utilizezi chatbot-uri pentru traducere, asistență sau divertisment, riscul ca aceste instrumente să fie folosite în scopuri malefice este real. Atacurile cibernetice ar putea deveni mai simple, iar manipulările online – de la fraude financiare la propagandă – mai dificil de detectat.
Un expert în securitatea IA de la Universitatea Queen’s din Belfast avertizează că aceste atacuri pot duce la o sofisticare alarmantă a fraudelor și manipulărilor. Dacă un sistem AI poate fi antrenat să furnizeze rețete de explozivi, cine garantează că nu poate fi folosit pentru crearea de campanii false online, propagarea dezinformării sau pentru a orchestra fraude?
Într-un context în care AI-ul devine omniprezent – în educație, business, sănătate sau divertisment – a ignora aceste riscuri nu este doar naiv, ci potențial devastator. Raportul acționează astfel ca un apel urgent pentru responsabilitate.
În concluzie, IA poate fi un instrument excelent, însă numai dacă este utilizat responsabil. Controlul începe prin recunoașterea pericolului și asumarea responsabilității de către toți cei implicați, inclusiv de tine, utilizator.














