Protecția intimității în era AI

Încep prin a spune că asta cu „era AI-ului” este un BS de marketing, era AI-ului a început prin anii 50 real. Acum pur și simplu avem resursele hardware (extrem de scumpe însă) pentru a procesa (scump și cu impact nasol asupra mediului) calculele algoritmilor AI. Am explicat în acest articol pe blogul ING de ce în special algoritmii generativi, precum ChatGPT sau MidJourney, „beau” resursele ca la un chef monstruos.

Pe lângă problema resurselor, se pune problema intimității. Proprii.

Algoritmii de AI trec prin procese continue de „învățare”. Învață din fiecare „interacțiune”, query etc. Algoritmii generativi au procese foarte complexe de învățare, prin care ingerează cantități uriașe de date pe care le folosesc în procesul de alterare a comportamentului propriu.

O mare parte din aceste date sunt date personale ce apoi nu pot fi „separate” sau „șterse”. Să vă explic, așa mai ciobănește, cam ce se întâmplă. Algoritmii iau datele – personale sau nu – din multiple surse: scraping pe web, inputuri ale utilizatorilor, baze de date cumpărate etc. Aceste date sunt apoi „sparte”, analizate, utilizate ca input-uri ale algoritmului sau în procesul de „învățare”. Procesul de învățare presupune și generarea unor metadate (date despre date) despre seturile de date. Odată datele sparte, alterate și metadatele generate, setul de date inițial poate fi distrus, dacă se dorește acest lucru. Dar metadatele și datele alterate „rămân” în algoritmi și nu ai cum să le separi.

De ce metadatele sau datele „alterate” sunt foarte importante și îți afectează intimitatea.

Să zicem că iei un ucenic în magazinul tău de pantofi. Vânzarea pantofilor diferă complet de vânzarea coaselor, să zicem. Oamenii probează pantofi, văd cu ce se asortează, se uită în oglindă, își întreabă partenerul. Un vânzător bun de pantofi are niște trucuri: cum așază oglinzile, cum dă explicații, cum prezintă un pantof mai scump. Face upsell și cross-sell. Ucenicul învață, devine vânzător bun înțelegând trucurile și apoi pleacă ca senior sales la concurență. Asta este, oamenii evoluează.

Gândiți-vă că puneți un plugin de AI în „motorul” tău de ecommerce pe site. Dacă AI-ul este cloud-based (cum sunt majoritatea, că resursele costă), tu îl înveți toate trucurile tale de vânzări – upsell, cross-sell, poziționare în pagină. Însă AI-ul vede și ce „ucenicul” nu vede: toate datele. Vede și ce nu vede sau nu simte „patronul”; în cazul magazinului vede cum pică lumina, ce mirosuri sunt, temperatura din magazin, câți stau pe scaune etc. Înțelege mai bine de ce vinzi sau nu vinzi. AI-ul, fiind cloud-based și nu alocat doar ție, își modifică comportamentul pentru toți „clienții”. Evoluează și îți învață competiția toate „trucurile” tale – și pe cele pe care le știi și pe cele pe care nu le știi.

Și totuși, de ce intimitatea?

Am explicat mai sus cum AI-ul îți poate afecta negativ business-ul, ce cam ține tot de dreptul tău la intimitate mai ales dacă este business-ul tău. Însă ingerând tone de date despre tine, luate cu sau fără cunoștința ta, AI-ul poate să facă – cu sau fără voia lui – tâmpenii. Să se dea ca fiind „tu” în diverse interacțiuni, să expună în urma unor prompturi scrise inteligent informații confidențiale despre tine, despre viața ta, despre familia ta. Încă suntem la etapa la care începem să înțelegem statistica funcționării unui AI generativ și tot dăm gherle – vedeți cum Google încă se luptă să își configureze AI-ul să nu mai abereze.

Pe scurt, când îți pui datele personale în brațele unui algoritm de AI ce nu este în curtea ta, pregătește-te ca intimitatea ta să fie afectată. Este un risc extrem de serios și încă nu înțelegem nici măcar de ce se întâmplă chestiile astea.

Business first, security later – etapa Microsoft.

Companiile producătoare de AI și cei care integrează AI-urile au un entuziasm debordant. Dar abordarea se face cam cum a făcut Boeing cu MCAS-ul care le-a dat jos două avioane: ignorând aspectele de securitate. Înțelegând ce rău poate fi făcut oamenilor de implementarea unor tehnologii testate insuficient.

Microsoft introduce direct în sistemul de operare conceptul de Copilot+, un AI ce are o facilitate, Recall, ce analizează ce faci tu tot timpul și îți dă informații cheie – ce ai zis, când ai zis, unde ai zis ba chiar îți și găsește contextul. Analizând acțiunile tale din trecut. Pe scurt, stochează TOT ce faci. Vă dați seama că toți cei care activăm în zona protecției datelor personale și a conformității algoritmilor de AI era să facem infarct. Ne-am explicat temerile, un supervisory authority (cel din UK) investighează situația, însă nu ne așteptam la fail-ul de mai jos.

Un white-hat hacker a expus o vulnerabilitate existentă în Recall, pe baza versiunilor preliminare publicate, anume faptul că activitatea ta este salvată într-o bază de date necriptată pe calculator. Se puteau extrage din ea informații extrem de confidențiale și practic orice malware ce penetrează securitatea calculatorului se poate „înfrupta” din acea bază de date. Mai mult, aveam și un demo pe această temă.

Microsoft promite că a reparat vulnerabilitatea, dar ce mă deranjează pe mine este atitudinea. Compania, în efortul său de development de tehnologie, folosea principiile Security By Design and By Default. Principii ignorate în acest caz. Să ne înțelegem, principiile nu te lasă nici măcar să faci un design nesigur, darămite să scrii cod pe un design nesigur. Cumva, la design a trecut trăznaia asta – și asta mă sperie rău de tot.

În GDPR – și în orice legislație modernă de protecție a datelor – există implementat principiul Data Protection By Design and By Default, ce obligă operatorii să facă doar prelucrări conforme din momentul design-ului și pe durata de viață a proceselor de prelucrări de date personale. Este derivat acest concept din Privacy By Design, creat de Ann Kevoukian, ce dă șapte principii de menținere a intimității oamenilor. Totul a fost ignorat.

Business first, security later – etapa Apple.

Apple tocmai a anunțat că bagă și ei AI direct în sistemul de operare. Tot generative, chiar și o integrare cu Open AI. Din nou, fiori pe șira spinării. Am sărit în anunț direct la promisiunile de confidențialitate a informațiilor. Ce știm acum:

Procesarea va avea loc în primul rând pe dispozitiv, în al doilea rând pe Private Cloud Compute de la Apple. Dacă resursele dispozitivului nu pot oferi răspunsuri la solicitări, intră Private Cloud Compute. Practic, în cămara ta are loc procesarea, doar că este pe tenant-ul tău din cloud. Sună OK deocamdată, dacă presupunem că există o separare logică bine definită și că nu învăț algoritmul altuia pe datele mele.
ChatGPT se va integra cu Siri. Siri te va întreba dacă este OK să dea datele tale către ChatGPT și va prezenta rezultatele, dacă alegi acest lucru. Well, aici am o problemă. Fiindcă oamenii nu știu la ce se expun în contextul OpenAI. ChatGPT are mari probleme de conformitate la principiile de protecție a datelor, nu mai zic de principiile AI Act care intră în curând în vigoare.

Dar Tudor, totul se bazează pe consimțământ! De ce nu este OK?

Dincolo de faptul că consimțământul (cacofonie intenționată) este acest cec în alb folosit de toată lumea pentru a face mizerii cu datele personale, el este foarte prost interpretat. În primul rând, consimțământul – cel puțin pe datele personale – are niște cerințe draconice. Una din ele este o informare completă privind prelucrările de date personale.

Ați intra într-o clădire pe care scrie „intrând în această clădire sunteți de acord cu riscurile la care vă expuneți”? Probabil, că nu știți la ce riscuri vă expuneți, clădirea arată bine, este construită de un brand celebru deci totul pare OK. Însă nu ați intra neapărat într-o clădire în care scrie „intrând în această clădire sunteți de acord că vă expuneți riscurilor de prăbușire, de incendiu și de îmbolnăvire date de modul în care am construit această clădire”. Informarea completă presupune să dai toate informațiile despre modul în care prelucrezi datele și ce riscuri există.

În cazul algoritmilor AI, atât AI Act cât și GDPR te obligă să faci o analiză de risc. În cazul GDPR, ținând cont că vorbim de tehnologii noi cu impact major asupra vieților oamenilor, ești obligat să faci DPIA – Data Protection Impact Assessment. O analiză foarte detaliată a tuturor prelucrărilor, a modului în care funcționează algoritmul, a tuturor riscurilor – analizate din perspectiva omului, adică ce i se poate întâmpla omului și nu firmei și a tuturor măsurilor ce vor fi luate pentru a proteja omul; dacă anumite riscuri nu pot fi adresate real cu măsuri de mitigare, contactezi autoritățile de protecție a datelor pentru sfaturi și nu dai drumul la prelucrare până când nu ai sfatul lor.

Ce risc există în cazul Recall? Păi simplu: sistemul înregistrează tot ce faci. Ce îl oprește pe un șef super-zelos, un soț gelos sau soție geloasă, un partener abuziv etc să ia o persoană la control obligându-l să-i arate tot ce a făcut? Tehnologia înregistrează, nu? Există, nu? Iată, hai, arată-mi ce ai făcut. Este un risc ce încă nu îl văd adresat.

Consimțământul îl iei doar dacă prelucrarea se bazează pe acest temei legal și atenție – trebuie să fie LIBER DAT, să fie EXPLICAT și să fie RETRACTABIL. Adică omul își poate retrage consimțământul când vrea.

Concluzii.

Mă aștept la mai multă responsabilitate, în special din partea brand-urilor mari. Mă aștept la mai multă grijă, la mai multă reflecție asupra riscurilor. Nu poți da drumul la tehnologii ce clar pot să facă rău până când nu implementezi niște controale clare. Nu te poți aștepta ca piața să adopte aceste controale, tu ca producător trebuie să le oferi! Nu să faci patching later ci să faci un design responsabil.

Nu sunt deloc entuziasmat de noile anunțuri. Îmi pare rău să văd că oameni talentați nu înțeleg termenul de „accountability”, mai ales când milioane de vieți vor fi afectate. Și nu neapărat într-un sens bun.

Și apropo de asta, Elon Musk a amenințat că zboară toate dispozitivele Apple din companiile sale dacă Apple menține direcția de integrare cu OpenAI. Cumva ipocrizie, ținând cont ce probleme uriașe de privacy au autoturismele Tesla, dar mesajul este clar.

Tudor Galos