Akik alapos valószínűségelméleti ismeretekkel rendelkeznek: hogyan lehet ezt kiszámítani?
Egyetemi oktató tette fel nekem ezt a kérdést:
„Mit gondol, mekkora valószínűséggel azonosít valakit a 10 millió magyar állampolgár közül a következő három adat (együttesen): az állandó lakcím irányítószáma, a születési dátum és a nem?”
100%-os vszséggel, tehát egyértelműen ugye akkor lenne azonosítható vki, ha a felsorolt három személyes adata mellett még ismernénk a nevét és az anyja nevét is.
Nos?
Nos. Van kb. 3500 létező irányítószám. Becslésként induljunk ki abból, hogy minden irányítószámon kb. ugyanannyi ember lakik. Tehát annak az esélye, hogy két ember irányítószáma azonos legyen: 1:3500
Mondjuk az átlag életkor kb. 60 év körül mozog. Ez kb. 60*365 = 21900 különböző születési dátumot jelent. Tehát annak az esélye, hogy két embernél ez az adat azonos: 1:21900
Az meg, hogy két ember nem egyezik: 1:2
Innen az esély, hogy mindhárom egyezik: 1:3500*21900*2 = 1:153 300 000.
Csakhogy! Vannak például egypetéjű ikrek, vagy azonos nemű kétpetéjű ikrek. Ők mondjuk felnőtt korukig egy lakásban élnek. De még ha szét is költöznek ugye, akkor is simán lehet, hogy ugyanabban a kisvárosban laknak, tehát az irányítószámuk azonos. A születési dátumuk, nemük is azonos. Szóval 100% az esélye annak, hogy ez a három adat együttesen nem azonosít.
Kb. minden 80. szülés ikerszülés, így 81 gyerekre jut 1 ikerpár. Ez országosan 250 000 embert érint. Ha az egy irányítószám alatt lakó ikerpárok ennek a felét teszik ki, akkor is kb. 1,25% esélyt jelent arra, hogy a három adat egynél több embert „azonosít”. Nagyságrendileg ez helyesnek tűnik, pontosabb eredményt pontosabb számítással lehetne végezni, ahhoz pontosabb adatok kellenének.
> Szóval 100% az esélye annak, hogy ez a három adat együttesen nem azonosít.
Értsd: 100% az esélye annak, hogy van két ember, aki ugyanazokkal az adatokkal rendelkezik. 100% az esélye annak, hogy hiba lenne mondjuk egy nyilvántartást erre a három adatra, mint összetett azonosítóra építeni.
Én már a kérdést is másként értelmezem mint 2xSü:
„Mit gondol, mekkora valószínűséggel azonosít valakit a 10 millió magyar állampolgár közül a következő három adat (együttesen): "
Szerintem nem annak a valószínűségét keressük hogy egyáltalán van vagy nincs olyan ember aki...
hanem, hogy a 10 millió emberből hány százalékot azonosít be egyértelműen ez a 3 adat.
Falvakban él a lakosság 30%-a, náluk >90% az esély arra, hogy a születési dátum és a nem egyértelműen beazonosítja őket.
Pl: 5000 lakosnál P=(1-1/44000)^5000 ~ 0,9 - és a falvak átlagban kisebbek...
(44000 : 2xSü fejtegetése)
Bp-nél, a városoknál már több lakos jut 1 irányítószámra - de nem nagyon sokkal.
Pest: kb 80000 lakos kerületenként 10 irányítószámmal.
Becslés: min. 9 millió lakost biztosan egyedien azonosít a 3 adat.
Köszönöm szépen a válaszokat!
Az illető jogász és alkalmazott matematikus végzettségekkel rendelkezik, és az adatvédelem, az informatikai (ICT) jog a szakterülete.
#8: "...EGY ADOTT adathármashoz..." ? Melyikhez?
Nem, 10 millió van adva. Közülük kinek, hánynak egyedi? - Szerintem.
#2: "Szóval 100% az esélye annak, hogy ez a három adat együttesen nem azonosít" ... MINDENKIT.
Hozzátehetem: 100% az esélye annak is, hogy VAN OLYAN ember akit ez a három adat együttesen azonosít.
Vegyük csak az ország 10, 20, vagy 100 legöregebb emberét.
Az is valószínűtlen, hogy 2-nek azonos legyen a születési dátuma, a neme meg az irányítószáma is.
De hogy mindannyiuknak legyen "párja" ? - Lehetetlen.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!