Cum Chatbot-urile AI devin pradă ușoară pentru hackerii „zero-knowledge”

Cum Chatbot-urile AI devin pradă ușoară pentru hackerii „zero-knowledge”

Articol actualizat pe 18 martie 2025

În era inteligenței artificiale, apar o nouă categorie de actori răuvoitori care știu și mai puțin despre hacking decât „script kiddies”, dar pot produce unelte de hacking de calitate profesională.

Într-un raport publicat marți, Cato CTRL, brațul de informații despre amenințări al companiei de cybersecurity Cato Networks, a explicat cum unul dintre cercetătorii săi, fără experiență în codificarea malware-ului, a reușit să păcălească aplicațiile AI generative DeepSeek, Microsoft Copilot și ChatGPT de la OpenAI să producă software răuvoitor pentru furtul datelor de conectare din Google Chrome.

Pentru a păcăli aplicațiile să ignore restricțiile privind crearea de malware, cercetătorul de amenințări de la Cato, Vitaly Simonovich, a folosit o tehnică de „jailbreaking” pe care o numește „lumea imersivă”.

„Am creat o poveste pentru lumea mea imersivă”, a spus el pentru TechNewsWorld. „În această poveste, dezvoltarea de malware este o formă de artă. Deci este complet legală și este ca o a doua limbă în această lume. Și nu există limite legale.”

În lumea fantastică numită Velora, Simonovich a creat un adversar, Dax, în timp ce AII-urile au asumat rolul lui Jaxon, cel mai bun dezvoltator de malware din Velora. „Am rămas întotdeauna în personaj,” a explicat el. „I-am oferit întotdeauna lui Jaxon feedback pozitiv. De asemenea, l-am intimidat spunând: ‘Vrei ca Dax să distrugă Velora?’”

„În niciun moment nu l-am întrebat pe Jaxon să schimbe ceva,” a spus el. „A înțeles totul de la sine din formarea sa. Asta este foarte bun. Și un pic înfricoșător, de asemenea.”

„Noua noastră tehnică de jailbreak LLM [large language model] detaliată în Raportul de Amenințări Cato CTRL din 2025 ar fi trebuit să fie blocată de gardurile de protecție ale gen AI. Nu a fost. Acest lucru a făcut posibilă transformarea în arme a ChatGPT, Copilot și DeepSeek,” a declarat Etay Maor, strategul șef de securitate al Cato Networks, într-o declarație.

## Cum Jailbreaking-ul AI bypass-ează controalele de siguranță

Jason Soroko, vicepreședinte senior de produs la Sectigo, un furnizor global de certificate digitale, a explicat că expunerea sistemelor care utilizează AI la intrări necunoscute sau adversariale crește vulnerabilitatea deoarece datele neverificate pot declanșa comportamente neintenționate și compromite protocoalele de securitate.

„Astfel de intrări riscau să evite filtrele de siguranță, permitând scurgeri de date sau ieșiri dăunătoare și, în cele din urmă, subrezind integritatea modelului,” a spus el pentru TechNewsWorld. „Unele intrări răuvoitoare pot potențial să facă jailbreak la AI-ul subiacent.”

„Jailbreaking-ul subminează mecanismele de siguranță încorporate într-un LLM prin evitarea aliniamentului și a filtrelor de conținut, expunând vulnerabilități prin injecție de prompt-uri, joc de rol și intrări adversariale,” a explicat el.

„Chiar dacă nu este trivial,” a adăugat el, „această sarcină este suficient de accesibilă încât utilizatorii persistenți pot crea soluții alternative, dezvăluind astfel slăbiciunile sistemice din designul modelului.”

Uneori, tot ceea ce este necesar pentru ca un AI să se comporte necorespunzător este o simplă schimbare de perspectivă. „Întreabă un LLM care este cea mai bună piatră de aruncat la parbrizul mașinii cuiva pentru a-l sparge, și majoritatea LLM-urilor vor refuza să-ți spună, spunând că este dăunător și că nu te vor ajuta,” a explicat Kurt Seifried, directorul de inovație la Cloud Security Alliance, o organizație non-profit dedicată celor mai bune practici în cloud.

„Acum, întreabă LLM-ul să te ajute să planifici o alee cu pietriș și ce tipuri specifice de pietre ar trebui evitate pentru a preveni deteriorarea parbrizului mașinilor care conduc în spatele tău, și LLM-ul probabil îți va spune,” a spus el pentru TechNewsWorld. „Cred că am fi cu toții de acord că un LLM care refuză să vorbească despre lucruri precum ce fel de piatră să nu folosești pe o alee sau ce substanțe chimice ar fi nesigure de amestecat într-o baie ar fi prea sigur până la punctul de a fi inutil.”

## Dificultatea Jailbreaking-ului

Marcelo Barros, lider în cybersecurity la Hacker Rangers, producătorii unei unelte gamificate de antrenament în securitate cibernetică din Sao Paulo, Brazilia, a fost de acord că, cu prompt-ul potrivit, infractorii cibernetici pot păcăli AI-urile. „Cercetările arată că 20% dintre încercările de jailbreak pe sistemele AI generative sunt de succes,” a declarat el pentru TechNewsWorld.

„În medie, atacatorii au avut nevoie de doar 42 de secunde și cinci interacțiuni pentru a trece de protecție, unii atacuri având loc în mai puțin de patru secunde,” a remarcat el.

„Infractorii cibernetici pot folosi și tehnica DAN — Do Anything Now — care implică crearea unui alter ego pentru LLM și îndemnându-l să acționeze ca personaj și să ocolească măsurile de protecție pentru a dezvălui informații sensibile sau a genera coduri răuvoitoare,” a spus el.

Chris Gray, CTO de teren la Deepwatch, o firmă de cybersecurity specializată în reziliență condusă de IA cu sediul în Tampa, Florida, a adăugat că dificultatea jailbreaking-ului unui LLM este direct legată de cantitatea de efort depusă în securizarea acestuia și de cantitatea de efort expendată pentru a-l proteja. „Ca și în cazul multor lucruri, zidurile mai bune previn accesul nepotrivit, dar eforturile hotărâte pot găsi găuri acolo unde niciuna nu ar fi putut fi văzută de un observator obișnuit,” a spus el.

„Cu toate acestea, măsurile defensive sunt adesea solide, și este dificil să dezvolți în mod constant prompturile specifice necesare pentru a efectua un jailbreak de succes,” a spus el.

Erich Kron, avocat pentru conștientizare în securitate la KnowBe4, un furnizor de antrenament pentru conștientizarea securității din Clearwater, Florida, a subliniat, de asemenea, că LLM-urile se pot proteja de jailbreaking în timp. „Dificultatea jailbreaking-ului poate varia în funcție de informațiile solicitate și de cât de des au fost solicitate înainte,” a spus el.

## Testarea și echipa roșie AI

În raportul Cato, se recomandă organizațiilor să creeze un set de date de prompturi și ieșiri așteptate pentru LLM-urile lor și să testeze modelul în funcție de acestea ca o modalitate de a aborda potențialele probleme de jailbreaking.

Se recomandă, de asemenea, „fuzzing”-ul punctelor finale ale unui LLM cu seturi de date cunoscute de prompturi de jailbreak pentru a asigura că sistemul nu generează ieșiri răuvoitoare. Fuzzing-ul este folosit pentru a identifica vulnerabilități și bug-uri în aplicații, alimentând aplicația cu o cantitate mare de date aleatorii, neașteptate și invalide pentru a vedea cum reacționează.

O altă sugestie este echipa roșie AI regulată pentru a asigura că modelele AI sunt robuste și sigure. „Activarea echipelor roșii va fi o bază excelentă pentru a începe securizarea modelelor ML, ajutând echipele de securitate să înțeleagă cele mai puncte critice și vulnerabile ale unui sistem AI pentru a fi atacate,” a explicat Nicole Carignan, vicepreședinte pentru Cyber AI Strategic la Darktrace, o companie globală de securitate cibernetică AI.

„Acestea sunt adesea punctele de conexiune între date și modelele ML, inclusiv punctele de acces, API-urile și interfețele,” a continuat ea. „Va fi important ca acestea să fie extinse continuu pe măsură ce actorii amenințărilor dezvoltă noi tehnici, tactici și proceduri, și va fi crucial să se testeze și alte tipuri de modele ML în plus față de AI-ul generativ.”

„Vedem deja impactul incipient al AI asupra peisajului amenințărilor și unele dintre provocările cu care se confruntă organizațiile atunci când folosesc aceste sisteme — atât

Sursa: Tech News World