ArticlePDF Available

Kockázatokat rejt az egészségügyi adatok anonimizálása

Authors:

Abstract

Az anonimizálás célja az, hogy a személyes adatokat átalakítsa olyan módon, hogy azok már nem kapcsolathatók össze természetes személyekkel. Az anonimizálás megfelelő validálás nélkül magában hordozhatja azt a kockázatot, hogy az adatokat később mégis természetes személyekhez lehessen kapcsolni. Amikor ez kiderül, rendszerint jóvátehetetlen kár következik be, mert az adatokat már megosztották, eladták, vagy nyilvánosságra hozták. A tisztességes anonimizálás számol a kockázatokkal és minden lehetséges eszközzel védekezik az újraazonosítás ellen. A szerző a magyar népességnyilvántartás statisztikai adatainak segítségével tárja fel a jelenlegi magyar egészségügyi anonimizálási gyakorlat gyengeségeit.
68 IME XIII. ÉVFOLYAM 2. SZÁM 2014. MÁRCIUS
INFOKOMMUNIKÁCIÓ ADATBIZTONSÁG
Az anonimizálás célja az, hogy a személyes adatokat
átalakítsa olyan módon, hogy azok már nem kapcsolat-
hatók össze természetes személyekkel. Az anonimizá-
lás megfelelő validálás nélkül magában hordozhatja azt
a kockázatot, hogy az adatokat később mégis természe-
tes személyekhez lehessen kapcsolni. Amikor ez kide-
rül, rendszerint jóvátehetetlen kár következik be, mert
az adatokat már megosztották, eladták, vagy nyilvános-
ságra hozták. A tisztességes anonimizálás számol a
kockázatokkal és minden lehetséges eszközzel védeke-
zik az újraazonosítás ellen. A szerző a magyar népes-
ség-nyilvántartás statisztikai adatainak segítségével
tárja fel a jelenlegi magyar egészségügyi anonimizálási
gyakorlat gyengeségeit.
The goal of the anonymization is to transform
personal data such a way that data cannot be linked to
natural persons any longer. Anonymization without
appropriate validation may always carry certain risk for
re-identification. When this fact comes to light data sub-
jects had already suffered irremediable loss since the
“anonymous” data might have already been sold, sha-
red or publicized. Fair anonymization counts with this
risk of re-identification and fights against it with all
possible means. In this paper the author reveals the
weaknesses of the current medical anonymization
practice by the help of statistical distribution data
obtained from the national population registry.
BEVEZETÉS
Az anonimizálás a görög νωνυμία (anonimia) szóból
származik, amelynek a jelentése név nélkül, illetve névtele-
nül. Tudományos kutatók meg szokták különböztetni az ún.
de-identified (közvetlen személyes azonosítókat nem tartal-
mazó) állományokat, amelyeknél számolnunk kell az újra-
azonosítás kockázatával, és a valóban anonim állományo-
kat, ahol ez a kockázat elhanyagolhatóan kicsi. A szakiroda-
lomban az anonimizálás szót akkor használják, ha a sze-
mélyes adatok átalakításának az a célja, hogy egy olyan ál-
lományt kapjanak, amely esetében az újra-azonosítás koc-
kázata elhanyagolható.
Orvosi kutatás esetén a kutatási alanyok személyiségi
jogait védeni kell. Ez nem csak jogi, hanem egyben morális
kötelesség is. A védelem egyik módja az, hogy az adatokat
anonimizálják mielőtt átadják a kutatóknak. Ideális esetben
ez teljes védelmet nyújt az érintetteknek, hiszen senki sem
tudja később azonosítani őket, így a jogaik nem sérülnek. Az
anonimizálásnak nélkülözhetetlen és jelentős szerepe van
az orvosok kommunikációjában, amikor eseteket vitatnak
meg konferenciákon, tudományos folyóiratokban.
A magyar egészségügyi államigazgatási rendszer korlát-
lan törvényi felhatalmazást kapott olyan, jogszabály szerint
anonim adatbázisok használatára, amelyben természetes
személyazonosító adatok nem szerepelnek ugyan, de meg-
található bennük a születési dátum, a lakóhely irányító-
száma és a nem. Egy hasonló adatállományt az USA-ban
1995-ben már feltörtek, és nem sokkal később olyan jogi
szabályozás lépett hatályba, amely jelentősen szigorította a
születésre és a lakóhelyre utaló adatok használatát anonim
adatállományokban. A szerző ebben a cikkében a magyar
népesség-nyilvántartás statisztikai adatainak felhasználásá-
val objektív becslést ad a jelenlegi állítólagos „anonim” adat-
állományok újra-azonosítási kockázatára.
Előzmények
Kezdetben úgy tűnt, hogy néhány jól meghatározott adat
törlésével, esetleg egyszerű átalakításával anonim adatok-
hoz lehet jutni. Paul Ohm a Texas Egyetem jogász profesz-
szora [1] cikkében azonban három olyan esetet ismertetett
az Egyesült Államokból, amelyek során anonimnek hitt adat-
állományokat törtek fel egyszerű módszerekkel. 1995-ben
Latanya Sweeny végzős egyetemi hallgató sikerrel azonosí-
totta a GIC (Group Insurance Commission) egészségbizto-
sító-társaság „anonim” adatállományában Massachusetts
állam kormányzóját és jutott hozzá egészségügyi adataihoz.
A születési dátum, az irányítószám és a nem alapján a re-
gisztrált választópolgárok publikus adatbázisával sikeresen
össze tudta kapcsolni az egészségügyi adatokat tartalmazó
adatállományt. 2006-ban feltörték az AOL (American Online)
által publikált anonim adatállományt, amely a webes kere-
sőprogramba begépelt szövegeket tartalmazta. Ugyancsak
2006-ban feltörték a Netflix videó kölcsönző hálózat anonim
adatállományát, amelyben a mozifilmek nézői értékelése sze-
repelt. Utóbbi adatállományt két matematikus, Narayanan
and Shmatikov törte fel és cikket is írtak a munkájukról [2].
Az Egyesült Államokban nincs szövetségi adatvédelmi
törvény, azonban 1996-ban szövetségi egészségügyi adat-
védelmi törvényt hoztak létre (Health Insurance Portability
and Accountability Act-HIPAA), amelynek a függelékében is-
mertettek egy anonimizálási módszert, amelynek alkalma-
zása esetén elhanyagolható újraazonosítási kockázattal kell
számolni. Ennek a megalkotásához figyelembe vették L.
Sweeny [3] és P. Golle [4] kutatásait az amerikai lakosság
földrajzi és életkori eloszlásával kapcsolatban. A kutatások-
hoz mindketten az USA publikus népszámlálási adatállomá-
Kockázatokat rejt
az egészségügyi adatok anonimizálása
Dr. Alexin Zoltán, Szegedi Tudományegyetem, Természettudományi és Informatikai Kar,
Szoftverfejlesztés Tanszék
69
IME XIII. ÉVFOLYAM 2. SZÁM 2014. MÁRCIUS
INFOKOMMUNIKÁCIÓ ADATBIZTONSÁG
nyát használták fel. Az USA felismerte azt, hogy az egész-
ségügyi adatokon a nem kellő körültekintéssel végrehajtott
anonimizálás nemzetbiztonsági kockázatot jelenthet. Az ún.
privacy rule [5] szerinti anonimizálás úgy történik, hogy az
adatállományból minden azonosító számot, jelet eltávolíta-
nak; az érintettel kapcsolatos dátumokból (születés, halál,
beutalás, felvétel, elbocsátás stb.) csak az évszámot hagy-
ják meg. A születési dátum esetében, a 90 évnél idősebb
érintetteknél az évszám helyett a „90 évnél idősebb” szere-
pelhet csupán. Az érintettre utaló azonosítók 18 kategóriáját
sorolja fel a HIPAA törvény nem kizárólagos módon, pl. név;
cím (a címből csak egy 20 ezernél nagyobb lakosságra mu-
tató irányítószám prefix maradhat meg, az ötjegyű irányító-
számból legfeljebb a három első számjegy, ha a lakosok
száma kevesebb, mint 20 ezer, akkor a háromjegyű irányí-
tószám prefixet helyettesíteni kell 000-val)., telefon, fax, e-
mail, egészségbiztosítási azonosító, orvosi naplószám, iga-
zolások, engedélyek száma, gépek azonosítói, gyári szá-
mok, biometrikus adatok, arcot is ábrázoló fényképek stb.
A privacy rule meglepően jól vizsgázott a különböző fel-
törési kísérletekben. Peter Kwok [6] megpróbálta egy piac-
kutatási adatbázissal összekapcsolni egy a privacy rule alap-
ján anonimizált egészségügyi adatállományt, az illetékes eti-
kai bizottság engedélyével, és 15 ezer orvosi rekordból ket-
tőt sikerült névvel, címmel beazonosítania, ami 2 / 15 000 =
0,013% kockázat. Benitez and Malin [7] ugyancsak tesztelte
a privacy rule hatékonyságát. Több támadási esetet vizsgál-
tak meg és 0,01-0,25% közötti kockázatokat mértek.
AZ ÚJRA-AZONOSÍTÁSSAL KAPCSOLATOS
KORÁBBI EREDMÉNYEK
Először Sweeney [3] dolgozta fel az USA 1990-es nép-
számlálási adatait abból a célból, hogy megvizsgálja a nem,
születési dátum és az irányítószám adatok eloszlását, és
megbecsülje, hogy ilyen adatok ismeretében az Amerikai
Egyesült Államok lakossága milyen arányban azonosítható.
A pontos születési dátum nem volt elérhető, de feltételezte,
hogy születési dátumok egyenletesen oszlanak el egy éven
belül. Számításai alapján (meglehetősen durva becsléseket
használt, amelyeket később, pontosabb mérésekkel nem si-
került igazolni) az USA lakosainak 87.1%-át egyértelműen
azonosítja e három adat.
Az eredményeket szerette volna ellenőrizni, és az újabb,
2000-es népszámlálási adatokkal összevetni Golle [4].
Számára sem volt elérhető a pontos születési dátum.
Azonban kiszámította, hogy egyenletes eloszlást feltételez-
ve, várhatóan hány személy született különböző napon,
hány olyan pár volt, akik azonos napon születtek stb. Egy n
személyből álló csoportból az egyéneket véletlenszerűen b
számú alcsoportba (dobozba) helyezzük (pl. születések dá-
tuma éven belül), akkor az i embert tartalmazó alcsoportok
száma a következő:
(1)
Egy, az újraazonosítással kapcsolatos fogalom a g-kü-
lönböző (g-Distinct):
Egy személyt egykének nevezünk, ha a tulajdonságok
egy olyan halmazával rendelkezik, amilyen senki másnak
sincs. Azt mondjuk, hogy egy személy g-különböző, ha a tu-
lajdonságait tekintve megkülönböztethetetlen g-1 vagy ke-
vesebb személytől. Az egyediség azonos az 1-különböző fo-
galommal. A g-különböző személyek száma hn(g) az 1, 2,
…, g személyt tartalmazó alcsoportokban (dobozban) talál-
ható személyek számának összege.
Tegyük fel, hogy 70 személy ugyanabban az évben
(nem szökőévben) született, akkor várhatóan
személynek különböző lesz a
születésnapja, és napon lesz
egyszerre két személynek is születésnapja. Folytatva a szá-
molást, tehát a 70 emberből 57,93 (82,76%) lesz 1-különbö-
ző, és (98,44%) személy lesz 2-különböző. Egy olyan irá-
nyítószám körzetben, ahol 8-10 ezren laknak, azaz nagyjából
4-5 ezer férfi és 4-5 ezer nő él, közöttük 5000/70 ≈ 70 lesz
olyan, akiknek ugyanabban az évben van a születésnapja.
k-Iker (k-Twin):
Tetszőleges k egész számra, ha egy adattábla pontosan k
olyan személyt (rekordot) tartalmaz, amelyeknek azonosak
a kvázi-azonosítóik (pl. irányítószám, születési dátum,
nem), akkor őket k-ikreknek nevezzük. Minden olyan adatot,
amely később elvben személyazonosításra szolgálhat,
kvázi-azonosítónak nevezünk (1., 2. táblázat).
A szerző néhány irányítószám körzetre meghatározta a
népesség-nyilvántartástól kapott adatbázis alapján a k-ikrek
számát (k = 1, ..., 6) értékekre, lásd az 1. táblázatot. A 2. táb-
lázatban a Golle képlettel (1) kiszámított értékeket mutatja
be. A számok meglepően hasonlók a két táblázatban. Golle
az (1) képlettel kiszámította az USA-ban élő 1-különböző
személyek számát minden egyes irányítószám körzetben,
1. táblázat
Példák a k-ikrek számára a népességnyilvántartásból
2. táblázat
A k-ikrek várható száma P. Golle képletével (1) számítva
70 IME XIII. ÉVFOLYAM 2. SZÁM 2014. MÁRCIUS
INFOKOMMUNIKÁCIÓ ADATBIZTONSÁG
majd az egész USA-ra összesítve azt találta, hogy a lakos-
ság 63%-a 1-különböző, azaz egyértelműen azonosítható
az irányítószám, a nem és a pontos születési dátum segít-
ségével.
A TÉTELES EGÉSZSÉGÜGYI ADATTÁR
A Tételes Egészségügyi Adattár (TEA) [8] forrása az
Országos Egészségbiztosítási Pénztár (OEP) három elszá-
molási adatállománya volt (gyógyszertárak vényjelentései,
járóbeteg-elszámolás, fekvőbeteg-elszámolás). Létrehozá -
sára az Egészségügyi, Szociális és Családügyi Miniszter
2004/76. (VIII. 28.) számú rendelete alapján került sor 2004-
ben. Az adatállományokban TAJ-t egy pszeudonimmel he-
lyettesítették adatvédelmi okok miatt. A TAJ egy 9-jegyű di-
gitális azonosító, az azt helyettesítő ún. pszeudo-TAJ
ugyancsak egy 9-jegyű szám. Az egészségügyi átszervezé-
sek folytán a fogadó szervezetek száma napjainkra négyről
kettőre csökkent: a Gyógyszerészeti és Egészségügyi Mi -
nőség- és Szervezetfejlesztési Intézetre [9], valamint az Ál-
lami Népegészségügyi és Tisztiorvosi Szolgálatra [10].
Ismert adatvédelmi problémák
a Tételes Egészségügyi Adattárral kapcsolatban
A Tételes Egészségügyi Adattárat a miniszteri rendelet
anonimnak nyilvánítja, holott valójában nem az. Összevetve
a HIPAA privacy rule szabályaival, az adattár tartalmazza az
intézmények, szervezeti egységek kódjait, orvosi naplószá-
mokat, a kezelő és a beutaló orvosok azonosítóit, pontos
születési, halálozási, felvételi, elbocsátási és beutalási,
gyógyszerkiváltási dátumokat, irányítószámokat, az alkal-
mazott egészségügyi ellátás kódjait. Ezek mind kvázi-azo-
nosítók és személyazonosításra használhatók. Az országos
orvos nyilvántartó honlapon [11] a pecsétkódot megadva
megtalálható minden működési engedéllyel rendelkező
orvos adata, szakorvosi képesítései, munkahelye. A TEA
adatbázisban a pro famila ellátások adatai külön meg van-
nak jelölve, ezért az orvosok családtagjai közvetlenül és
egyértelműen azonosíthatók.
A szerző a TEA ügyében 2006-ban az Alkotmány -
bírósághoz fordult, de indítványát elutasították. Az AB kije-
lentette, hogy az OEP továbbra sem továbbíthat személya-
zonosításra alkalmas adatokat, de maga úgy ítélte meg,
hogy a TAJ nélkül továbbított adatok nem alkalmasak sze-
mélyazonosításra, azaz semmilyen adatvédelmi probléma
nem merül fel. A TEA adatbázis – mivel anonim – ezért nem
áll etikai bizottság felügyelete alatt sem.
AZ ÚJRA-AZONOSÍTÁS KOCKÁZATA
A korábban említett kutatások nem támaszkodhattak
pontos születési adatokat tartalmazó adatállományokra. Az
azonos napon született állampolgárok várható eloszlását a
valószínűség-számítás segítségével becsülték meg. A szer-
ző ellenben hozzájutott a magyar népesség-nyilvántartás el-
oszlási adataihoz, amellyel pontosabb kockázatmérésre
nyílt lehetőség.
A népesség-nyilvántartás kutatási adatállománya
Az adatállomány 270MB méretű szöveges állományt je-
lent, amelynek felépítése az 1. ábrán látható.
Minden egyes sor négy adatelemet tartalmazott pontos-
vesszővel elválasztva: az irányítószámot, a születési dátu-
mot, a nemet (N-nő, F-férfi), és az ezen a napon született ál-
lampolgárok számát a megadott irányítószám körzetben.
Az újra-azonosítás kockázatának kiszámítása
Az újra-azonosítás kockázatának kiszámítása az emlí-
tett k-iker fogalmon alapul. Egy k-iker halmazban pontosan
k, valamilyen szempontrendszer alapján megkülönböztethe-
tetlen személy található. Például az egy irányítószám kör-
zetben, egy napon született, azonos nemű személyek (ha
nem áll rendelkezésre más kvázi-azonosító), akkor megkü-
lönböztethetetlenek.
Az újra-azonosítás kockázata az alábbi képlettel szá-
molható:
(2)
A k-különböző személyekre kiszámított kockázat a kö-
vetkező:
(3)
A (3) számú pesszimista” képlet feltételezi, hogy a k-kü-
lönböző személyek is valamilyen külső tudás segítségével
azonosíthatók. Például az adatokat feltörni igyekvő tudja a
célszemélyről, hogy a Kútvölgyi Szanatóriumban kezelteti
magát, vagy tudja egy orvosi vizsgálat vagy műtét dátumát,
tudja egy kiváltott gyógyszer nevét és dátumát. Ezzel a tu-
dással azonnal azonosíthatóvá válik a célszemély akkor is,
ha a demográfiai adatok alapján két (vagy több) lehetséges
személy található az adatbázisban. A TEA adattár tele van
kvázi-azonosítókkal ezért ennek a képletnek van létjogosult-
sága. Egyébként azonban valószínűleg egy másik képletet
kell használni, amely figyelembe veszi azt, hogy kmegkü-
lönböztethetetlen személy közül a célszemélyt csak 1/k va-
lószínűséggel lehet azonosítani. Ezzel a realisztikus” (3*)
1. ábra
A népesség-nyilvántartástól kapott kutatási adatbázis felépítése
(Az eredeti értékeket a szerző megváltoztatta, nincs 6188 irányító-
szám Magyarországon).
71
IME XIII. ÉVFOLYAM 2. SZÁM 2014. MÁRCIUS
INFOKOMMUNIKÁCIÓ ADATBIZTONSÁG
képlettel a kockázatot a következőképpen lehetne kiszámí-
tani:
(3*)
A népesség-nyilvántartótól kapott adatállomány segítsé-
gével meghatározható a magyar lakosságban a k-ikrek
száma, lásd 3. táblázat. A teljes lakosság 11-különböző (az
USA lakossága 31-különböző volt). Az újra-azonosítás koc-
kázata a pesszimista” (3) képlettel számolva: 78.426%,
94.001%, and 99.801%; ha a (3*) képletet használjuk, akkor
78.426%, 86,214%, and 87,985% az 1-különböző, 2-külön-
böző és az 5-különböző személyekre vonatkozóan.
A teljes lakosságból 7 845 850 fő egyedi irányítószám,
születési dátum, és nem adatokkal rendelkezik, de ha bár-
mely két személy közül ki tudom választani a célszemélyt,
akkor már 9 403 904 magyar állampolgár azonosítható az
adatok alapján.
Ha az életkor szerinti eloszlását vizsgáljuk meg a kocká-
zatnak, akkor azt tapasztaljuk, hogy az idősebbek egyre na-
gyobb valószínűséggel azonosíthatók. A születések számá-
nak jelentős csökkenése miatt, a kockázat kisebb mértékben
növekvő tendenciát mutat az 1980-as évektől kezdve napja-
inkig. Az újra-azonosítás kockázatát az életkor függvényében
a 2. és a 3. ábra mutatja be. Három függvény mutatja az 1-
különböző, a 2-különböző és az 5-különböző személyek azo-
nosítási kockázatát a „pesszimista” és a „realisztikus” képlet-
tel. Mindhárom függvény 100%-ról indul, és lassan csökken.
A 76 évesnél idősebbek több mint 90%-a 1-különböző.
Az újra-azonosítás kockázatának csökkentése
általánosítással
A népesség-nyilvántartás adatállománya lehetőséget
adott arra, hogy megvizsgáljunk bizonyos általánosítási lehe-
tőségeket, amelyek az újra-azonosítási kockázat csökkenhe-
tik. Nemzetközi példák alapján a szerző megvizsgálta az: irá-
nyítószám első három jegye, az irányítószám első két jegye,
a születési év és hónap, a születési év, az irányítószám első
három jegye + a születési év és hónap, valamint az irányító-
szám első három jegye + születési év általánosításokat. Az
eredményeket a 4. táblázat foglalja össze. Látható, hogy a
pontos születési dátum alkalmazása általában jelentős koc-
kázatot jelent, és hogy kizárólag a születés évét meghagyva
a kockázat jelentősen csökkenthető. A legjobb eredmény két
általánosítási transzformáció együttes alkalmazásával érhe-
tő el. A születési év + irányítószám első 3 jegye esetében a
kockázat már 0.1% alá csökkent, ami még mindig 10 ezer
egyértelműen azonosítható idős magyar állampolgárt jelent.
ÖSSZEFOGLALÁS
A magyar egészségügyi kormányzat 2004-ben létrehoz-
ta a Tételes Egészségügyi Adattárat. Ez pszeudonimizált
adatokat tárol a teljes lakosságról 1998-tól kezdve. Az OEP
az elszámolási adatbázisokban szereplő TAJ azonosítókat
rendre pszeudo-TAJ-ra cseréli ki, egyebekben azonban vál-
tozatlan formában továbbítja azokat. Az ilyen módon pszeu-
donimizált adatállományban szerepel a páciensek születési
3. táblázat
A k-ikrek száma a magyar lakosságban, a 4-jegyű irányítószám, a
születési dátum és a nem alapján
2. ábra
Az azonosítás kockázata a megadott életkornál idősebb
populáció körében a “pesszimista” (3) képlettel számolva
3. ábra
Az újra-azonosítás kockázata az életkor függvényében
a “realisztikus” (3*) képlettel számolva
4. táblázat
A különböző általánosítások segítségével kapott kockázatcsökken-
tés
72 IME XIII. ÉVFOLYAM 2. SZÁM 2014. MÁRCIUS
INFOKOMMUNIKÁCIÓ ADATBIZTONSÁG
dátuma, neme és a lakóhelyük irányítószáma. E demográ-
fiai adatok kezelésére korlátlan jogot kapott a GYEMSZI és
az ÁNTSZ az Eüaktv. módosítása nyomán 2013-ban.
Az adatvédelmi biztos 2006-ben ellenezte a TEA adattár
létrehozását, mert kockázatosnak ítélte a működést, kifejezet-
ten veszélyesnek tartotta az állampolgárok háborítatlan
magán életére nézve [12]. Az adattár tartalma, a dátumok, az
intézmények és orvosok adatai, a páciensek lakóhely és szü-
letési adatai kifejezetten alkalmasak arra, hogy egyes pácien-
seket azonosítsanak az adatok segítségével. Kü nösen az je-
lent problémát, ha a TEA adattár elhagyja a GYEMSZI és az
ÁNTSZ területét, hiszen anonim adatokról van szó, és attól
kezdve követhetetlen a felhasználók köre. A TEA adattáron
végzett feldolgozási műveletek felett nem őrködik etikai bizott-
ság, nincs független adatvédelmi felügyelet, és társadalmi
kontroll sem az adatok hasznosításakor. Az adattár felhaszná-
lása nem a társadalom szeme előtt, hanem eltitkolva történik.
A szerző megállapítása szerint a magyar lakosság
78,4%-a a születési dátum, nem és irányítószám adatok
alapján egyértelműen azonosítható. Ha valamilyen extra tu-
dással is rendelkezünk, akkor az azonosítási kockázat
azonnal 94% fölé emelkedik. Az nyugdíjas korú emberek,
vagy a faluban, kisvárosban élők esetén ez a kockázat
eleve 90% feletti. A miniszterelnök vagy az adatvédelmi ha-
tóság elnöke például 1-iker, azaz egyértelműen azonosítha-
tó. A parlamenti képviselők a vezető politikusok, az Alkot -
mánybíróság tagjai kötelesek közzé tenni életrajzukat és va-
gyonnyilatkozatukat. E kettőből sokszor kideríthető a szüle-
tésük dátuma és a lakóhelyük irányítószáma. Az ún. szociá-
lis hálózatokban (Facebook, Skype, iWiW, Yahoo, Google
stb.) éppen ezeket az adatokat szokták megadni a felhasz-
nálók, amivel gyakorlatilag kulcsot adtak a TEA állomány fel-
töréséhez. Ezek gyakorlatilag elérhető adatok mindenkiről
és ezért a TEA adatbázis működése komoly adatvédelmi
aggályokat vet fel. Nem zárható ki az sem, hogy az adatbá-
zis egyes részei külföldre kerültek, ami nemzetbiztonsági
kockázatot jelenthet. Az állomány messze nem tekinthető
tisztességesen anonimizáltnak.
IRODALOMJEGYZÉK
[1] Ohm, P., Broken Promises of Privacy: Responding to the
Surprising Failure of Anonymization, (August 13, 2009).
UCLA Law Review, Vol. 57, p. 1701, 2010; U of Colorado
Law Legal Studies Research Paper No. 9-12. Available at
SSRN: http://ssrn.com/abstract=1450006
[2] Narayanan, A. and Shmatikov, V.: Robust De-Ano nymi -
zation of Large Sparse Datasets, in Proceedings of the
2008 IEEE symposium on Security and Privacy, pp. 111-
121, 2008
[3] Sweeney, L., Simple Demographics Often Identify People
Uniquely. Carnegie Mellon University, Data Privacy
Working Paper 3. Pittsburgh 2000. URL: http://dataprivacy-
lab.org/projects/identifiability/paper1.pdf utolsó letöltés:
2013. szeptember 15.
[4] Golle, P. Revisiting the uniqueness of simple demograp-
hics in the US population, in Proceedings of the 5th ACM
workshop on Privacy in electronic society, pp. 77-80.
ACM, 2006.
[5] Office for Civil Rights, Guidance Regarding Methods for
De-identification of Protected Health Information in
Accordance with the Health Insurance Portability and
Accountability Act (HIPAA) Privacy Rule November 26,
2012, URL: http://www.hhs.gov/ocr/privacy/hipaa/unders-
tanding/coveredentities/De-identification/hhs_deid_gui-
dance.pdf, utolsó letöltés: 2013. szeptember 15.
[6] Kwok P, Davern M, Hair E, Lafky D (2011) Harder than you
think: a case study of re-identification risk of HIPAA-comp-
liant records. Chicago: NORC at The University of
Chicago, Abstract #302255.
[7] Benitez, K., and Malin, B. Evaluating re-identification risks
with respect to the HIPAA privacy rule. Journal of the
American Medical Informatics Association, Vol. 17 No. 2
(2010), pp. 169-177, doi:10.1136/jamia.2009.000026
[8] http://adatgyujtes.gyemszi.hu/TEA/
[9] http://www.gyemszi.hu
[10] http://www.antsz.hu
[11] A szolgáltatás az EEKH honlapjáról érhető el: http://kere-
so.eekh.hu/
[12] Az Adatvédelmi Biztos 1301/A/2006-9. számú állásfogla-
lása, 2006. október 9.
A SZERZŐ BEMUTATÁSA
Dr. Alexin Zoltán matematikusként
végzett a József Attila Tudomány egye -
temen 1985-ben. Doktori fokozatát
2003-ban szerezte tanuló algoritmusok
alkalmazásairól írt értekezésével. A
SZOTE-PACS rendszer tervezése volt
első orvosi informatikai feladata 1995-
ben. 2004-ben kezdett el egészség-
ügyi adatvédelemmel foglalkozni. Több
alkotmánybírósági és más peres eljárást indított az egész-
ségügyi adatkezelés jogi alapjainak tisztázása érdekében.
Szakértő volt az EuroSOCAP (European Standards on
Confidentiality and Privacy in Healthcare) FP6 projektben.
2009-től a Dél-alföldi Regionális Kutatásetikai Bizottság
tagja. 2009 és 2010 között közös adatvédelmi kutatásban
vett részt a Central Lancashire egyetemmel. 2012-től a
FutureICT.hu TÁMOP project adatvédelmi alprojektjének
vezetője.
... Jónéhány to vábbi azonosítási lehetőség is van, a dátumok alapján, vagy az intézetek, kezelőorvosok és BNO kódok alapján. A szerző erre felhívta a figyelmet, de teljesen hiába, a jogi szabályozás az maradt, ami volt [9]. Az Európai Bizottság 29. ...
Article
Full-text available
Két egészségügyi vonatkozású adatvédelmi peres eljárás eddigi eredményeit mutatom be írásomban. Magyarországon adatvédelemmel kapcsolatos pereket általában nehéz indítani, mert az adatkezelésekre minden esetben jogi kötelezettségként, azaz állami kényszerintézkedés alkalmazásával kerül sor. Ez a jogtechnikai megoldás eleve kizárja a lehetőségét, hogy az érintett valamilyen jogos érdekéből bírósághoz fordulhasson. Az egyik pert a Jogalkotásról szóló törvényre, a másikat az EU 95/46/EK adatvédelmi irányelvére alapozva nyújtotta be a felperes. Bár a perek három-négy éve tartanak, elfogadható, jogerős magyar ítélet még nincs. Az időközben született határozatok azt tükrözik, hogy az igazságügyi rendszer alkalmatlan a polgárok alapvető jogainak védelmére. A személyes adatok védelméhez fűződő jog tartalma megfelelő képzettség hiányában idegen és felfoghatatlan a bíróságok számára.
... A törvény szerint ezek az adatok nem lesznek majd személyesek, amikor átadják őket a kutatóknak, de hogy ezt ki dönti majd el, és hogyan lehetünk biztosak ebben, az nem derült még ki. 2014-ben a Tételes Egészségügyi Adattárról is kiderült, hogy valószínűleg személyes adatokat tartalmaz [10], pedig törvény szól arról, hogy oda csak személyazonosításra alkalmatlan adat kerülhet. Az adatkezelő eddig semmilyen szándékot nem mutatott arra, hogy megszüntesse a törvényellenes adatkezelést. ...
Article
Full-text available
Az Országgyűlés 2015 decemberében fogadta el az EESzT működését megalapozó törvényt. A végrehajtással kapcsolatos rendeletek még nem születtek meg, de a törvény alapján felvázolható a központi számítógépes nyilvántartással kapcsolatos kormányzati elképzelés. A törvény szövege a parlamenti vita után a Népjóléti Bizottság módosító javaslatának elfogadásával radikálisan megváltozott: az állampolgárok számára korábban sokszor hangoztatott, és a benyújtott szövegben még szereplelt tiltakozási jogot visszavonták. A tervezett rendszer így egy élethosszig tartó, minden egyes ellátásról adatot tartalmazó nyilvántartássá vált. Vitára adhat okot a kényszerű adatmegőrzés ideje, amely a jelenleg is irreálisan magas 30-50 év helyett ennél is hosszabb ideig, a halál után 5 évig őrizné meg az adatokat. Az állami hatóságok és intézmények hozzáférése továbbra is akadálytalannak látszik, ahogyan az orvos felhasználók is kapnak lehetőséget az önrendelkezési nyilvántartásban szereplő korlátozások megkerülésére. A számítógépes rendszer a másodlagos célú felhasználásokat az érintettek tájékoztatása és hozzájárulásuk nélkül tenné lehetővé.
Article
Full-text available
Many healthcare organizations follow data protection policies that specify which patient identifiers must be suppressed to share "de-identified" records. Such policies, however, are often applied without knowledge of the risk of "re-identification". The goals of this work are: (1) to estimate re-identification risk for data sharing policies of the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule; and (2) to evaluate the risk of a specific re-identification attack using voter registration lists. We define several risk metrics: (1) expected number of re-identifications; (2) estimated proportion of a population in a group of size g or less, and (3) monetary cost per re-identification. For each US state, we estimate the risk posed to hypothetical datasets, protected by the HIPAA Safe Harbor and Limited Dataset policies by an attacker with full knowledge of patient identifiers and with limited knowledge in the form of voter registries. The percentage of a state's population estimated to be vulnerable to unique re-identification (ie, g=1) when protected via Safe Harbor and Limited Datasets ranges from 0.01% to 0.25% and 10% to 60%, respectively. In the voter attack, this number drops for many states, and for some states is 0%, due to the variable availability of voter registries in the real world. We also find that re-identification cost ranges from $0 to $17,000, further confirming risk variability. This work illustrates that blanket protection policies, such as Safe Harbor, leave different organizations vulnerable to re-identification at different rates. It provides justification for locally performed re-identification risk estimates prior to sharing data.
Article
We have studied the admission records of Hispanics in one hospital system between 2004 and 2009. The data set was stripped of identifying information as required by the Health Insurance Portability and Accountability Act of 1996 (HIPAA) safe harbor methodology. We simulated an intrusion scenario in which an intruder had access to a substantial amount of information available from a market research company. We used the market research data to try to identify specific people from the hospital systems HIPAA de-identified data set, and sent possible matches to the hospital system for confirmation. Our experiment shows that this intrusion scenario involves many challenges. Even when the intruder is given strong assumptions about their knowledge the re-identification risk is at most only about 0.22%. We discuss the limits of our analysis and identify areas for future inquiry.
Article
Computer scientists have recently undermined our faith in the privacy-protecting power of anonymization, the name for techniques for protecting the privacy of individuals in large databases by deleting information like names and social security numbers. These scientists have demonstrated they can often 'reidentify' or 'deanonymize' individuals hidden in anonymized data with astonishing ease. By understanding this research, we will realize we have made a mistake, labored beneath a fundamental misunderstanding, which has assured us much less privacy than we have assumed. This mistake pervades nearly every information privacy law, regulation, and debate, yet regulators and legal scholars have paid it scant attention. We must respond to the surprising failure of anonymization, and this Article provides the tools to do so.
Conference Paper
According to a famous study (10) of the 1990 census data, 87% of the US population can be uniquely identified by gen- der, ZIP code and full date of birth. This short paper revisits the uniqueness of simple demographics in the US population based on the most recent census data (the 2000 census). We oer a detailed, comprehensive and up-to-date picture of the threat to privacy posed by the disclosure of simple de- mographic information. Our results generally agree with the findings of (10), although we find that disclosing one's gender, ZIP code and full date of birth allows for unique identification of fewer individuals (63% of the US popula- tion) than reported in (10). We hope that our study will be a useful reference for privacy researchers who need sim- ple estimates of the comparative threat of disclosing various demographic data.
Conference Paper
We present a new class of statistical de- anonymization attacks against high-dimensional micro-data, such as individual preferences, recommendations, transaction records and so on. Our techniques are robust to perturbation in the data and tolerate some mistakes in the adversary's background knowledge. We apply our de-anonymization methodology to the Netflix Prize dataset, which contains anonymous movie ratings of 500,000 subscribers of Netflix, the world's largest online movie rental service. We demonstrate that an adversary who knows only a little bit about an individual subscriber can easily identify this subscriber's record in the dataset. Using the Internet Movie Database as the source of background knowledge, we successfully identified the Netflix records of known users, uncovering their apparent political preferences and other potentially sensitive information.
U of Colorado Law Legal Studies Research Paper No. 9-12. Available at SSRN: http://ssrn
UCLA Law Review, Vol. 57, p. 1701, 2010; U of Colorado Law Legal Studies Research Paper No. 9-12. Available at SSRN: http://ssrn.com/abstract=1450006