Máte super aplikáciu, ktorá už má svojich zákazníkov a potrebujete inovovať? Asi viete, že ak použijete na tréning AI alebo iných algoritmov osobné údaje, automaticky sa na vás zvalí spŕška povinností podľa GDPR. O rizikách nehovoriac. Trénovanie na synteticky vytvorených dátach zase nemusí priniesť výsledky, aké potrebujete. Ako to teda urobiť?
To tajomstvo sa volá anonymizácia dát podľa GDPR.
Každý dobrý IT-čkar vám povie, že anonymizácia dát je v dnešnom technologickom svete utópia. Stačí pridať zopár údajov – aj keď to niekedy môže ísť dosť ťažko – a viete spätne identifikovať daného človeka, teda jeho údaje deanonymizovať.
To je pravda.
Napríklad jeden výskum ukázal, že analýzou anonymizovaného datasetu s údajmi z telefonických hovorov 1,5 milióna ľudí v rádiuse 100 km na základe umiestnenia antény, ktorá prepájala ich hovor alebo SMS, nazbieraných za 15 mesiacov, bolo možné identifikovať 95 ľudí len s použitím 4 známych lokalizačných bodov (kde sa za tých 15 mesiacov nachádzali). A na identifikáciu viac ako 50 % ľudí stačili len 2 lokalizačné body (teda dom – práca). Viac vedieť netreba, len 2 údaje z vašej GPS navigácie, a vedia, že ste to vy.
Takže realita dáva za pravdu IT-čkarom. Ale nezúfajte. GDPR totiž nevyžaduje nezvratnú, 100 % anonymizáciu v technologickom, ale v právnom zmysle. Ako tomu rozumieť?
Poďme sa na to pozrieť.
Obsah
Čo sú osobné údaje?
Zrejme viacerí z vás radšej preskočia túto časť, lebo „veď je to jasné“. Divili by ste sa, ale určiť, čo ešte sú a čo už nie sú osobné údaje, nie je vôbec také jednoduché.
Podľa práva ide o údaje, ktoré sa týkajú osoby, ktorú sme už identifikovali alebo ktorú môžeme s ich pomocou potenciálne identifikovať.
Identifikovať osobu znamená možnosť vyčleniť ju z určitej skupiny buď priamo – na základe jej mena, priezviska, adresy, dátumu narodenia alebo iných údajov, alebo nepriamo. Nepriamo znamená, že osobu vieme oddeliť od ostatných v skupine bez toho, aby sme poznali jej bežné identifikačné údaje. Stačí nám však vedieť, že je jej pridelený určitý identifikátor (napr. cookies) alebo máme k dispozícii iné údaje, napríklad z GPS o tom, akými trasami cestuje každé ráno, aké weby navštevuje, aká dynamická IP adresa jej bola pridelená, kde sa ňou prihlasuje a pod.
Ako teda zistíme, že dataset údajov, z ktorých nevieme, ako sa niekto volá alebo kde býva, je v režime GDPR?
Treba si uvedomiť, že osobné údaje sú informácie, ktoré nemusia obsahovať priame identifikačné údaje, teda byť „o osobe“. Záleží aj na účele údajov a následnom spôsobe ich použitia.
Osobnými údajmi sú vo všeobecnosti informácie, ktoré sa týkajú nejakej osoby:
- svojím obsahom (sú o danej osobe),
- svojím účelom (samé osebe nemusia obsahovať identifikačné informácie o danej osobe, ale sú získavané pre jej neskoršiu identifikáciu, napríklad záznamy z kamier),
- svojím dôsledkom (síce z nich samých je ťažké niekoho identifikovať, ale dajú sa použiť s dopadom na práva a záujmy konkrétnej osoby, napríklad ovplyvnenie jej správania na internete prostredníctvom zobrazovania personalizovanej reklamy).
Čo je anonymizácia?
Ak teda máte akékoľvek osobné údaje vo svojich systémoch, podliehate GDPR. To pre vás znamená ošetrenie celého dátového toku, prípravu povinnej dokumentácie, zmlúv s dodávateľmi služieb, bezpečnostných opatrení, procesov na vybavovanie GDPR žiadostí zákazníkov, nahlasovanie bezpečnostných incidentov, a zopár ďalších vecí.
Ak sa chystáte svoje datasety využiť na trénovanie algoritmov a nechcete prejsť celou tortúrou či a ako to vôbec podľa GDPR robiť, treba sa zamyslieť nad úpravou vašej databázy.
Prvá otázka vyvstáva, čo ak tie údaje oddelím tak, že mi ostane skupina, z ktorej sa nedá nič vyvodiť a zvyšok uložím oddelene? Alebo identifikačné údaje nahradím kódom, ktorý budem poznať len ja? Tento proces sa volá pseudonymizácia a podľa GDPR je to jedno z bezpečnostných opatrení na zvýšenie ochrany. No pokiaľ si nechávate druhú skupinu údajov a viete ju kedykoľvek priradiť k tej prvej, stále ste v režime GDPR.
Ako sa teda z neho dostať?
Anonymizácia je proces, kedy sa osobné údaje nezvratne upravia tak, že už spätne z nich nie je možné identifikovať žiadnu osobu. Ani nepriamo.
Nezvratne však neznamená, že je to úplne nemožné. Ale kde je hranica, kedy podľa GDPR sú dáta anonymizované a kedy nie?
GDPR to vidí prakticky
Právo má slúžiť ľuďom, preto by nemalo ísť do absurdností. Rovnako je to aj v tomto prípade.
GDPR vyžaduje prijatie nie všetkých možných aj nemožných opatrení na absolútnu (a zrejme nemožnú) anonymizáciu, ale prijatie primeraných opatrení na zabezpečenie anonymizácie tak, aby žiadna osoba nemohla byť z daných dát alebo po pridaní ďalších identifikovateľná.
Pri výbere týchto primeraných opatrení (o ktorých si povieme nižšie) by ste mali zohľadniť všetky spôsoby, ktoré by bolo pravdepodobne možné použiť na deanonymizáciu.
Pri posúdení toho, či je možné ich pravdepodobne použiť, je dôležité zohľadniť:
- náklady, ktoré by bolo potrebné vynaložiť
- čas, ktorý by deanonymizácia trvala
- aktuálne technológie, ktoré by sa dali použiť
- potenciálny vývoj technológií v blízkej budúcnosti
- verejné dostupné údaje, ktoré by sa dali k dátam pripojiť
- uniknuté údaje, ktoré sa dajú nájsť napr. na dark webe
- citlivosť anonymizovaných údajov alebo osôb, ktorých sa údaje týkali a s tým spojenú motiváciu cudzích osôb ich deanonymizovať.
Je teda fajn si urobiť analýzu rizík deanonymizácie vzhľadom na vyššie uvedené kategórie. Ak vám z nej vyjde, že údaje by teoreticky mohli byť deanonymizované, ale stálo by to toľko času, peňazí a neprimeraného úsilia, a navyše si neviete predstaviť, že by o to vôbec niekto za daných podmienok mal záujem, môžete ich vyhlásiť za anonymizované.
Stačí vám teda získať alebo vytvoriť dataset, ktorý s primeranou pravdepodobnosťou nie je možné deanonymizovať. Teda nie, že by bolo úplne nemožné to urobiť. A môžete začať trénovať svoje algoritmy.
Toľko k teórii. Aj vás napadla otázka, ako konkrétne anonymizovať váš dataset? Spôsobov je hneď niekoľko.

Najlepšie anonymizačné techniky
GDPR, ako aj väčšina podobných nariadení EÚ, obsahuje tzv. performatívne pravidlá. Tie hovoria o tom, aký výsledok máte dosiahnuť, avšak nehovoria o tom, ako ho máte dosiahnuť.
Tento prístup má svoju logiku v tom, že každé odvetvie je iné, a ten, kto je v ňom doma, najlepšie vie, aké technológie alebo prístupy použiť. Ani vám by sa asi nepáčilo, keby vám zákon prikazoval používať len dva formáty súborov alebo len jeden operačný systém.
A takto je to aj v prípade anonymizácie. Cieľ je daný – ním sú dáta upravené tak, aby boli racionálne anonymizované. Ako to urobiť, je už na vás. Nie sú dané žiadne povinné štandardy. Všetko je o vašej dôslednosti a kreativite.
Poďme si spomenúť aspoň niektoré z odporúčaných techník. Žiadna z nich sama osebe nie je dostatočnou zárukou anonymizácie, preto je vhodné ich kombinovať, prípadne použiť ich čo najviac.
Samozrejme, konkrétny typ zvolenej techniky vždy záleží od toho, čo s anonymizovanými dátami potrebujeme robiť.
Maskovanie
Maskovanie je jednoduchá technika, ktorá je skôr doplnkom ostatných efektívnejších metód, a mala by byť ich nevyhnutnou súčasťou. Spočíva v odobratí zjavných identifikátorov z databázy, ako sú mená, priezviská, bydliská, a pod. Sama osebe však nepredstavuje anonymizáciu, lebo v drvivej väčšine prípadov zvyšné identifikátory môžu pohodlne postačiť na identifikáciu konkrétnych osôb.
Keď už máme v prvom kroku maskované údaje, môžeme pokračovať ďalej.
Randomizácia
Randomizácia predstavuje techniku anonymizácie, v rámci ktorej sa dáta upravia tak, že sa tým preruší prepojenie medzi osobou a dátami bez toho, aby sa znížila hodnota dát.
Táto úprava môže zahŕňať doplnenie náhodných dát (tzv. noise addition) alebo drobné náhodné zmeny tak, aby sa link medzi osobou a jej dátami prerušil.
Príklad: Ak máme dataset osôb s určitou výškou, môžeme ku každému doplniť alebo odobrať pár centimetrov z výšky. Vo výsledku pomer výšky jedného k druhému ostane zachovaný, ale nemožno už nájsť medzi nimi osobu s určitou výškou, keďže táto už bude patriť inému alebo sa v databáze vôbec nachádzať nebude.
Tip: Na nahradenie skutočných dát fiktívnymi môžete použiť napr. Python knižnicu pre generovanie falošných údajov, teda nástroj používaný špeciálne za účelom anonymizácie datasetov.
Samostatným podtypom randomizácie je permutácia, kedy skutočné údaje patriace určitým osobám „poposúvame“ medzi nimi tak, že sa stratí spojenie medzi osobou a skutočným údajom.
Príklad: Ak máme rovnaký dataset osôb s určitou výškou, tieto výšky len pomiešame tak, aby určitá osoba A s výškou 167 cm bola po permutácii osobou A s výškou 185 cm. Tak môžeme pracovať s reálnymi dátami o výskyte určitej výšky, avšak stratí sa prepojenie s pôvodnou osobou.
Generalizácia
Táto technika zahŕňa zredukovanie presných dát, ak nie sú potrebné. V zásade sa odoberie konkrétna hodnota a daný subjekt alebo informácia sa zaradí do určitej skupiny. Takýmto spôsobom bude určitý atribút zdieľaný s viacerými ľuďmi v určitej skupine.
Príklad: Ak pracujeme s databázou ľudí, ktorí majú určitý vek, výšku a pôvod určený mestom, môžeme z nich vytvoriť skupiny od – do, teda roztriedenie ľudí:
– podľa veku, napr. od 16-25, 26-35, 36-45 atď.;
– spolu so skupinou podľa výšky, napr. od 166-175 cm, 176-185 cm, 186-195 cm atď.,
– s lokalizáciou podľa okresu, kraja alebo inej geografickej oblasti, namiesto konkrétneho mesta.
Aj v tomto prípade treba byť opatrní. Ak máme osobu s nezvyčajnou výškou, napr. 205 cm, alebo váhou, povedzme 185 kg v určitom meste, a mesto zameníme za okres alebo kraj, stále je vysoká pravdepodobnosť jej identifikovateľnosti, hlavne ak ani vo väčšom geografickom priestore sa nenachádza viac osôb s takouto nadpriemernou výškou.
Využitie pravdepodobnosti
Ak pracujete s dokumentami s osobnými údajmi, ktoré vytvárajú používatelia napríklad aj vo vašej appke, a tieto chcete anonymizovať, môžete si vypočítať pravdepodobnosť, s akou sa niektoré sekcie alebo určitý obsah v dokumentoch opakujú. Taktiež aj pravdepodobnosť, ako často sa opakujú určité chyby alebo chybné vzorce pri ich tvorbe. A tieto následne využiť pri tvorbe upravených (anonymizovaných) dokumentov.
Ak navyše zamaskujete kontaktné údaje falošnými (viď. Python knižnicu vyššie), prípadne nahradíte aj ďalšie údaje takýmto spôsobom, ste na najlepšej ceste k anonymizovaným údajom.
Pamätajte, že žiadna anonymizačná technika nie je 100 %-ná. To však ani nepotrebujete. Netreba zabudnúť zobrať do úvahy vyššie uvedené kritériá a ak zistíte, že vami použité techniky sú len s veľkými nákladmi prelomiteľné, je veľká šanca, že ste mimo GDPR.
Nezabudnite rešpektovať súkromie iných, tak, ako vy očakávate rešpekt k tomu vášmu.
*Tento obsah nebol ani sčasti vytvorený žiadnou AI a má len informačný charakter.
Na záver si vypočujte podcast o tom, čo presne robí Digital Campaign Manager: