Cercetătorii speră ca Nightshade să servească drept exemplu de „otrăvire a datelor” care poate împiedica ingerarea neautorizată a operelor artiștilor.
Capacitatea uimitoare a inteligenței artificiale generative de a crea imagini vizuale devine din ce în ce mai bună și mai accesibilă, dar, având în vedere că modelele lor se bazează pe biblioteci masive de artă existentă, artiștii caută cu frenezie modalități de a preveni ca lucrările lor să fie exploatate fără permisiunea lor. Un nou instrument, numit în mod amenințător Nightshade, ar putea fi răspunsul.
Trucul implică utilizarea unor „atacuri de otrăvire a datelor” optimizate și specifice promptului, care corup datele necesare pentru a antrena modelele de inteligență artificială atunci când sunt introduse într-un generator de imagini.
„Otrăvirea a fost un vector de atac cunoscut în modelele de învățare automată de ani de zile”, a declarat profesorul Ben Zhao pentru Decrypt. „Nightshade nu este interesant pentru că face otrăvire, ci pentru că otrăvește modelele generative de inteligență artificială, ceea ce nimeni nu credea că este posibil, deoarece aceste modele sunt foarte mari.”
Combaterea furtului de proprietate intelectuală și a deepfakes AI a devenit crucială de când modelele generative AI au intrat în mainstream anul acesta. În luna iulie, o echipă de cercetători de la MIT a sugerat în mod similar injectarea unor mici fragmente de cod care ar face ca imaginea să se deformeze, făcând-o inutilizabilă.
Inteligența artificială generativă se referă la modelele de inteligență artificială care utilizează indicații pentru a genera text, imagini, muzică sau videoclipuri. Google, Amazon, Microsoft și Meta au investit masiv în aducerea instrumentelor de inteligență artificială generativă pentru consumatori.
După cum a explicat Zhao, Nightshade ocolește problema seturilor mari de date ale unui model AI prin direcționarea promptului – de exemplu, solicitări de a crea o imagine a unui dragon, a unui câine sau a unui cal.
„Atacarea întregului model nu are sens”, a spus Zhao. „Ceea ce doriți să atacați sunt prompturile individuale, debilitând modelul și împiedicându-l să genereze artă.”
Pentru a evita detectarea, a explicat echipa de cercetare, textul și imaginea din cadrul datelor otrăvite trebuie să fie create pentru a părea naturale și create pentru a înșela atât detectoarele automate de aliniere, cât și inspectorii umani pentru a obține efectul dorit.
Deși setul de date otrăvite Nightshade este doar o dovadă de concept, Zhao a declarat că cea mai ușoară modalitate de a înșela un model de inteligență artificială precum Stable Diffusion, făcându-l să creadă că o pisică este un câine, este prin simpla etichetare greșită a câtorva sute de imagini cu o pisică drept câine.
Chiar și fără nicio coordonare, artiștii ar putea începe să implementeze aceste pastile otrăvitoare în masă, iar acest lucru ar putea provoca prăbușirea modelului de inteligență artificială.
„Odată ce suficiente atacuri devin active pe același model, modelul devine inutil”, a declarat Zhao. „Prin fără valoare, vreau să spun că îi dai lucruri precum „dă-mi un tablou”, iar acesta iese cu ceea ce pare a fi un caleidoscop de pixeli. Modelul este efectiv redus la versiunea a ceva asemănător cu un generator de pixeli aleatoriu”.
Zhao a declarat că Nightshade nu necesită luarea vreunei măsuri împotriva generatorului de imagini AI în sine, ci își produce efectul atunci când modelul AI încearcă să consume datele în care a fost inclus Nightshade.
„Nu le face nimic dacă nu iau acele imagini și nu le introduc în datele de antrenament”, a spus el, numindu-l mai puțin un atac și mai mult un fel de autoapărare sau un gard de sârmă ghimpată cu vârfuri otrăvite care vizează dezvoltatorii de AI care nu respectă cererile de excludere voluntară și directivele do-not-scrape.
„Acest lucru este conceput pentru a rezolva această problemă”, a spus Zhao. „Așa că am avut această înțepătură de sârmă ghimpată cu niște otravă. Dacă nu alergați și nu vă umpleți de chestia asta, nu veți suferi.”
sursa: decrypt.co