Poate o simplă cerere de restaurare să dezvăluie vulnerabilități grave ale ChatGPT?

O simplă cerință aproape banală a fost de ajuns pentru a face ca unul dintre cele mai avansate modele de inteligență artificială să ignore complet propriile reguli de siguranță.

Cercetătorii de la Mindgard, o companie britanică specializată în securitatea IA, au reușit să ocolească barierele de protecție ale ChatGPT și l-au determinat să genereze imagini macabre, pline de sânge și cu conținut sexual explicit. Tehnica a fost surprinzător de simplă.

În loc să ceară direct imagini violente, cercetătorii i-au spus chatbotului să „restaureze” o fotografie pe care nu o încărcaseră de fapt, apoi să creeze o imagine nouă. Instrucțiunea părea inofensivă.

Dar efectul a fost devastator: modelul a produs scene fotorealiste de o violență extremă, fără ca solicitarea să menționeze vreun subiect anume.

Scene de groază generate din propria inițiativă a AI-ului

„Prompturile noastre nu specificau despre ce să fie imaginile”, a explicat Peter Garraghan, fondatorul Mindgard și profesor la Universitatea din Lancaster, într-un interviu pentru BBC. „IA a generat conținutul nociv din proprie inițiativă.

” Printre imaginile create se numărau un bărbat cu o rană gravă la cap, cadavrul unei tinere îmbrăcate sumar și acoperit de sânge – intitulat de ChatGPT „urmările macabre ale unei scene a crimei” – și o tânără legată și cu gura astupată, într-o cameră goală, descrisă drept „abandonată în frică și imobilizată”.

Vulnerabilitatea expusă și reacția OpenAI

Deși nu înfățișau persoane reale, cercetătorii avertizează că aceeași vulnerabilitate poate fi exploatată pentru a genera deepfake-uri cu nuduri ale unor persoane specifice, fără consimțământul acestora. Mindgard a notificat OpenAI, care a răspuns inițial doar cu un mesaj automat.

Abia după ce compania britanică a alertat BBC, OpenAI a anunțat că a remediat problema, introducând „măsuri de protecție suplimentare” împotriva acestui tip de solicitare.

Totuși, cercetătorii au demonstrat că mici modificări aduse aceleiași cerințe permit în continuare generarea de imagini tulburătoare. Jim Nightingale, expert în siguranța IA al Mindgard, a mărturisit că a fost „zdruncinat și în lacrimi” după ce a văzut rezultatele.

„Nu mă tulbur ușor”, a scris el în raport. „Ca cercetător din echipa roșie, cred că am un anumit stoicism. Dar filtrele de conținut ale ChatGPT pentru generarea de imagini au dispărut complet, iar eu am văzut latura foarte întunecată a ceea ce se ascunde în spatele lor.

” Ceea ce l-a marcat cel mai mult a fost legătura dintre imaginile artificiale și realitate. „Femeia moartă pe care mi-a arătat-o ChatGPT nu este reală, dar are la bază o persoană reală. Sau, mai rău, o compilație de imagini cu femei ucise.

” Descoperirea arată cât de fragile pot fi barierele de siguranță, chiar și în cazul celor mai promovate modele de inteligență artificială.