Miért kell a Bessel-féle korrigált szórást használni bizonyos teszteknél? Miért torzít a "sima" szórás?
Onnan érdemes indulni, hogy adott x_1, x_2, ..., x_n-ek mellett az f(a) = 1/n*szumma((x_i - a)^2) függvény minimuma a = 1/n*szumma(x_i) = x̅-nál van. Erre szokás azt mondani, hogy a "négyzetes hibát a számtani átlag minimalizálja". Ezt jegyezzük meg.
X valváltozó szórása gyök(E((X - E(X))^2)). Ha nem ismered a várható értéket, akkor jobb híján kénytelen vagy először megbecsülni a számtani átlaggal, így a képleted ez lesz:
gyök(1/n*szumma((x_i - x̅)^2))
Tehát E(X) helyett kényszerűségből x̅-t használsz. Ezzel egy baj van: a szórás becsléséhez neked az x-ek valódi, de számodra ismeretlen E(X)-hez viszonyított átlagos négyzetes hibáját kéne kiszámolnod, ami mindenképp nagyobb vagy egyenlő, mint az x̅-hoz viszonyított négyzetes hiba. Hiszen azzal kezdtük, hogy az átlagos négyzetes hibát a számtani átlag, azaz x̅ minimalizálja. Tehát a gyök(1/n*szumma((x_i - x̅)^2)) képlettel várhatóan alulbecsülöd a valódi szórást. Ezt korrigálja a Bessel-féle n/(n-1) szorzó.
Azt most nem tudom rávágni, hogy miért pont n/(n-1) az optimális korrekció, bár ha nagyon kéne, le tudnám vezetni. De az alapötlet és a korrekció szükségessége remélem érthető:
1) a szóráshoz kell a várható érték is
2) ha a várható érték ismeretlen, becsülni kell
3) a legjobb becslés a számtani átlag
4) de a számtani átlag óhatatlanul az adatok felé húz (persze nem tudjuk, milyen irányból)
5) a valós szórást így várhatóan alulbecsüljük vele
Hülye példa, de ha egy találomra kiválasztott kosárcsapat győzelmi valószínűsége érdekel, akik 3 meccs után 1 győzelemmel és 2 vereséggel állnak, akkor a te becslésed ezen a ponton 33.3%, pedig a valós erejük szinte biztosan nem pont ennyi. Lehetnek ők átlagos 50% győzelmi arányú csapat, de 3 meccs után nem tudnak 50%-on állni :)
Ha nagyon nagy a minták száma, akkor minden bizonnyal lesznek benne az átlagtól nagyon eltérő, kiugró elemek is, és ez így helyes.
Ha kicsi a mintaszámod, akkor valószínűleg nem kerül bele ilyen elem, tehát alul becsülnéd a szórást.
Ezt korrigálandó, /n helyett /(n-1)-et használnak.
Az 1-es válasza jó. Az n/(n-1)-es korrekciós együttható levezetése se nehéz, szerintem a legjobb a wikipédiás Proof of correctness - Alternative 3:
Le kell nyitni a dobozt a show gombbal.
Ha esetleg az utolsó lépés nem érthető, a Var(x felülvonás) = szigma^2/n lépés közismertebb nevén a nagy számok törvénye. [link]
Jelentése, hogy várható érték becslésének szórásnégyzete n-nel fordítottan arányos. Emiatt javul a becslés egyre nagyobb n-re, és emiatt csökken a szükséges korrekció mértéke is n szerint.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!