Hogy becsülhetném egy vektor egyes elemeinek újdonságértékét?
Van egy nagy méretű adathalmazom, minden sora egy 50 elemű vektor. Az adatokban van mintázat, sok változó korrelál egymással, ha lefuttatok rajta egy PCA-t, akkor az első néhány dimenzióban is jól látszik, hogy van benne struktúra bőven.
A célom az lenne, hogy egy új vektornak megtaláljam azokat a részeit, amelyek "kilógnak" az ismert mintázatokból. Mondjuk úgy, hogy minden eleméhez rendelek egy számot, ami azt jelzi, hogy mennyire "meglepő" az adott változó értéke a többi tükrében.
Hogy egy példával érzékeltessem, mire gondolok: ha egy adatpont egy ember lenne, akkor mondjuk egy műszaki diplomával rendelkező, 47 éves, három gyerekes, informatikában dolgozó, havi egymilliót kereső, 120 m2-es házban élő, 18 éves Swifttel járó ember esetében az autó korához és típusához magas "újdonságértéket" rendeljen az algoritmus, a többihez pedig viszonylag alacsonyat.
Ugye a lényeg itt, hogy a változók nem önmagukban érdekesek (a havi 1 milla pl. kiugróbb, mint egy Swift) hanem a többi kontextusában. Az emberünk a legtöbb tulajdonságával a gazdag emberek csoportjába illeszkedik, de kilóg onnan a kocsijával. Nagyjából erre gondolok. Ha az emberünknek egy új Mondeoja lenne de műszaki diploma helyett történelemtanárival, akkor az lenne az érdekes változó.
Tudtok megoldást javasolni erre? Ha ismert probléma, van esetleg valami neve?
A manuális megoldás sajnos szóba sem jön. A gazdag emberes, kocsis dolog pedig csak egy rossz példa volt, nekem sima, numerikus, élettani adatokat tartalmazó vektoraim vannak. És nincs egy konkrét tulajdonság, ami érdekelne, hanem az összes érdekel egyszerre.
Pillanatnyilag amúgy olyasmivel próbálkozom, hogy betanítok 50 regressziós modellt a vektor 50 elemének mindegyikére a másik 49 felhasználásával (a különböző modelleket próbálgatom épp). Egy vektor elemeinek meglepetés-értékét pedig úgy számolom, hogy egyesével megbecsültetem őket a másik 49-ből regresszióval, és megnézem hogy mennyire tér el a becslés a valós értéktől. Minél nagyobb a különbség (normalizálva persze, az eloszlás varianciáját is figyelembe véve), annál meglepőbb az adott elem.
Hogy visszatérjek a hülye példámhoz, a fenti csókának a regresszió 4 éves autót tippelne, amitől a valós 18 nagyon eltér, ami magas újdonságértéket eredményezne az autó korára.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!