Cercetare: Performanța modelelelor AI în evaluarea ipotezelor științifice indică limite importante
O analiză detaliată a modului în care modele precum ChatGPT evaluează sute de ipoteze științifice a evidențiat limite serioase ale performanței AI-ului în domeniul evaluării informațiilor și identificării false. Studiul, citat de ScienceDaily, arată că, deși răspunsurile inițiale par satisfăcătoare, rezultatele reale indică o fiabilitate moderată și probleme de consecvență.
Performanță în creștere, dar cu limitări
Un test care a implicat peste 700 de ipoteze a verificat atât corectitudinea răspunsurilor, cât și consistența acestora. În 2024, ChatGPT a oferit răspunsuri corecte în aproximativ 76,5% din cazuri, iar în 2025, această cifră a crescut la 80%.
Cu toate acestea, ajustările pentru a elimina influența ghicitului aleatoriu au redus performanța reale. Sistemul a atins o acuratețe de aproximativ 60%, indicând o performanță doar moderat fiabilă. În plus, capacitatea de a recunoaște afirmațiile false s-a dovedit slabă, cu doar 16,4% din afirmațiile false fiind identificate drept astfel, ceea ce ridică semne de întrebare privind utilizarea AI pentru verificarea informațiilor.
Lipsa de consecvență la răspunsuri
Un alt aspect critic evidențiat de studiu este inconsistența răspunsurilor. În aproape 73% dintre cazuri, răspunsurile oferite pentru aceeași întrebare au fost consecvente. Restul de 27% au constat în variante diferite, uneori alternând între „adevărat” și „fals” fără explicație clară.
Există exemple în care distribuția răspunsurilor a fost chiar egală, ceea ce subliniază imprevizibilitatea sistemului. Această lipsă de stabilitate poate crea dificultăți în situații în care deciziile trebuie sprijinite de răspunsuri clare și consistente.
Autorii studiului atrag atenția că problemele de performanță și inconsistență nu permit tratarea AI-ului ca pe o sursă infailibilă de informații. În special în domenii precum știința sau business, verificarea independentă a rezultatelor devine esențială pentru evitarea erorilor și interpretărilor greșite.
Experții recomandă utilizatorilor și companiilor să ia în considerare limitările actuale ale tehnologiei. Este necesar ca răspunsurile generate de AI să fie verificate în surse independente și utilizate cu prudență în decizii critice.
Evoluția tehnologiilor AI continuă, însă nivelul de înțelegere conceptuală al sistemelor actuale nu este încă la nivelul unui expert uman. Înainte de a se baza pe aceste soluții, este recomandabil ca utilizatorii să fie conștienți de limitele și imprevizibilitatea acestor modele.















