Ha a nem, a független változó és van egy akármilyen függő változó, a hipotézis pedig az, hogy a nem hatással van a függő változó értékére, akkor t-próbát, korrelációt vagy regressziót kéne alkalmaznom?
Itt szerintem csak a t-próbát tudsz használni, hiszen a nem kvalitatív változó.
"hogy melyik nem hogyan teljesített."
A t-próba csak azt mutatja meg, hogy a két csoport átlaga közötti eltérés szignifikáns-e. Az, hogy melyik nem teljesít jobban, nyilván az átlagból derül ki. Egyébként a t-róba önmagába nem mutat ok-okozati összefüggéseket. Például ha valami függ a testmagasságtól, akkor valószínűleg szignifikáns eltérés lesz a két nem között, de nem (feltétlenül) közvetlen azért, mert más neműek, hanem azért, mert a férfiak átlagosan magasabbak.
Azért ennél kicsit összetetebb. Nem alapján van két csoportod és a két csoport eredményeit akarod összehasonlítani. Az, hogy most a két csoport "nem" szerint keletkezik az mindegy. Vannak válaszaid az egyik és a másik csoportban. Meg kell vizsgálni, hogy a egyáltalán a t-próba használható-e. (elég sok megkötés van rá). Pl. tényleg skála-e a változó, vagy diszkrét (pl. egyik haverom mutatott egy olyat, hogy azt vizsgálták, hogy a párok hány gyereket vállalnának városban és faluban /ez volt a két csoport/ majd kihozták, hogy városban 2,4 faluban 3,1 gyereket terveznek, árulja el valaki, hogy hogyan néz ki 0,4 vagy 0,1 gyerek?/. Ez már eleve félre viheti a feldolgozást mert a válaszok jellemzője alapján nem átlagolhatsz (és a t-próba az átlagokat vizsgálja). Pl. ha a matek jegyeket vizsgálod ott használhatsz mert az skála jellegű változó. Nyilván tök egyszerű a két mintás t-próba beütőd az excelbe kiköpi az eredményt és örülsz. Kaptál pár számot és értelmezd... Eleve az kéne, hogy a minták eloszlása normális legyen (ezt előtte vizsgálni kéne, de ki az aki ezt elvégzi előtte? bátran fogadnék nagy összegben, hogy valamilyen társadalomtudomány /vagy szociális-gondozó és hasonló/ szakon írsz szakdolgozatot minden tudományos megalapozottság nélkül...).
Az, hogy ki teljesített jobban azt a kérdésből kell látni. Pl. a fenti matek osztályzat alapján lehet tudni ha van szignifikáns eltérés az osztályban lévő lányok és fiúk átlaga alapján akkor kijelenthetjük, hogy ki teljesített jobban. Ezt azonban a kérdésből-kérdések rendszeréből tudjuk. Ezért nem vizsgálunk soha semmit egyetlen kérdés alapján. Több kérdésből álló rendszerben vizsgálunk. És ott már lehet mélyebb következtetéseket levonni. De ezt elég kevés helyen tanítják (több változós adatelemző módszerek, diszkriminancia modellek és társai kereső kifejezesék segítenek elindulni).
A másik probléma az szokott lenni, hogy "aszimmetrikus a minta" pl. gyakori, hogy az ilyen kérdőíveket tulnyomó részt lányok/nők töltik ki, és pl. 80:20 vagy még asszimetrikusabb nemi arányból próbálsz következtetést levonni. Ha azt akarod mérni, hogy hogyan teljesítenek nagyjából egyforma 50:50% körüli arány kéne. És még egy halom mást kéne vizsgálni.
Mi gyakran használunk t-próbát mert egyszerűen számolható, a programok tudják és ha a t-próba szerint van "remény" az eltérésre akkor megvizsgáljuk, hogy amit a t-próba mutat az jó-e (egyáltalán használható-e az adott mintára). Ha nem akkor keresünk további módszereket (chi-négyzet is sok esetben jó eredményt ad diszkrét változókra, vagy esetleg fischer-egzakt szintén bevethető szintén első sorban diszkrét változókra). A legegyszerűbben úgy járhatsz el, hogy számolsz egy t-próbát ha az mutat szignifikáns eltérést akkor megnézed,h ogy egyáltalán használhattad-e a t-próbát (ha az jön ki, hogy nem ld. t-próba részletes leírása) akkor keresel egy megfelelő próbát aminek az eredményét már publikálni is lehet. Ha a t-próba szerint nincs szignifikáns eltérés akkor valószínűleg nem is lesz más próbával sem és nem tölt el az ember tenger sok időt a megfelelő próba megtalálásával. (nyilván a cikkben/szakdolgozatban stb. nem írjuk le, hogy először t-próbát számoltunk, bár ezt kb. mindenki tudja, hogy így kezd mindenki).
Összefoglalva: a t-próbával meg tudod "nézni", hogy egyáltalán érdemes-e a kérdéssel foglalkozni vagy nem mert úgyse lesz eltérés a két nem válasza között. Ha a t-próba szerint van eltérés akkor vagy szerencséd van és a t-próba használható (szakdolgozat jellegű kutatásnál én még nem láttam oylat ahol lehetett volna használni...) akkor készvagy ha nem akkor vagy bátor leszel és azt mondod a bíráló sem ért hozzá és elfogadja a t-próba eredményét (ha nem szakdolgozat hanem tudományos cikk és külföldön jelenne meg akkor ott necces mert általában olyannak adják ki aki ért hozzá és vissza fogja dobni).
Az meg, hogy "ki teljesített jobban" azt meg a kérdés/kérdések alapján neked kell tudni, hogy a magasabb pont érték jelenti a jobb vagy az alacsonyabb jelenti a jobb teljesítményt.
Az hogy "a nem hatással van a függő változó értékére" már önmagában többmindent jelenthet. Mert az átlag egy dolog, de olyan is van, hogy nem az átlagban rejlik a különbség, hanem mondjuk a szórásban, amit a t-teszt nem fog neked kimutatni, de mégis releváns lehet. Arra más tesztek vannak.
Még valami. Ha több független változót mértél (gondolom igen) akkor a szignifikanciaszintedet ennek megfelelően kell szigorítanod, és nem fogadhatsz el minden szembejövő p<0.05 értéket, hanem a tesztelt változók számának függvényében arányosan korrigálnod kell azt (google: Benjamini-Hochberg). Ha mondjuk 20 változót mérsz, akkor abból várhatóan 1 bármiféle valódi ok nélkül, pusztán a véletlen műveként át fog csúszni p<0.05 alatt, ha nem korrigálsz.
Egy személyes, cinikus megjegyzés: jellemzően ezek köré a random statisztikai véletlenek köré szokás bullshitelni a fél szakdolgozatot... a konzulensnek meg szintén fingja nincs a statisztikáról, elfogadja, elhiszi.
Utolsó (18:24): csak a szakdolgozat felét? :) Egyébként pont ez a baj a sok szakdolgozatos kérdőívvel, meg a köré kerekített történetnek.
Amit a kolléga írt a 3,1 és a 2,4 gyerek még a lightosabb szakdolgozatos félre számolás. Sajnos nálunk elvárják szinte az összes társadalom tudomány (pszichológiát is ide értve), rengeteg szociális (védőnő, szoc. munkás, gondozó, ápoló, stb.) és rokon szakterületekenk, hogy "kérdőíves kutatás". Aztán kiderül, hogy már az alap kérdőív is hibás, nincs elég. Az összes úgy kezdődik: "a minta nem tekinthető reprezentatívnak". Amit kolléga írt, a nemi eloszlás egyoldalú (láttam olyat ahol 488 női kitöltő és 12 férfi volt /500-as minta/, és számolt belőle a bátor versenyző nemi mintázatot).
Az eredeti kérdésre válaszolva:
Ha a minta jellege megengedi akkor a két mintás t-próba használható. De ezt vizsgálni kell, hogy megfelelő-e ennek a minta. Pl. eloszlás, tényleg skála legyen a skála változó.
Ha nem használható a t-próba (mert nem skála, nem jó az eloszlás, nem közel 50-50% a nemi eloszlás stb.) akkor az adatok ismeretében kell keresni másik módszert.
Amit az utolsó is írt, hogy ha nagy számú a kérdés vannak véletlen "különbözőségek". Ha csak 1-1 válasz esetén van nemi eltérés akkor ott lehet "mérési hiba" pl. nem jól megfogalmazott kérdés, és a kérdés megértésében van nemi eltérés (ilyet is láttunk már). Poénosan: "szerintem a barack az pálinka, a feleségem szerint egy szín". Ezért kell már eleve a kérdést jól megfogalmazni. Azokat a dolgokat amikre meg kiváncsi vagy (előre megadott "hipotézis" ld. szakdolgozat) több kérdéssel körbe vizsgálni. Azaz simán megkérdezheted ugyanazt 3x 4x kicsit másként. És akkor a 3-4 kérdésből már látszik "rendszeres eltérés". Egy kérdésre hipót építeni bátorság. főleg kis mintaszám esetén (szakdolgozatoknál a mintaszám is kicsi általában). Ha a jól megfogalmazott 3-4 kérdés midnegyike azonos irányú eltérést mutat akkor ott már lehet valami. Itt az azonos irányú alatt azt értem, hogy 1. több kérdés esetén jelentkezik szignifikáns eltérés a nemi válaszok alapján, 2. a kérdés alapján az eltérés azonos pl. azoknál a kérdéseknbél ahol az "várható" a nők válaszainak átlaga magasabb mint a férfiaké,ha pedig az "alacsony érték a jobb" akkor ott a nők válaszainak átlaga alacsonyabb.
Sajnos ezt általában már nem tanítják meg a "fenti szakokon". De elvárják, hogy valamit kihozzon a hallgató. És általában a beadás előtti órákban derül ki, hogy már eleve a kérdések hibásak voltak és szinte semmit nem lehet kihámozni az adatokból. Amit a korábbi hozzászólók írtak, hogy sok esetben szakdolgozatnál a konzulensnek legalább ennyire nincs fogalma a statisztikáról, a bírálónak sem (a kollégája a tanszékről...) így totális statisztika katasztrófák is átmennek (ld. 3,1 darab gyerek amelyik egy teljesen jó szám ha pl. úgy írja le, hogy 10 vizsgált pár átlagosan 31 db. gyereket tervez az egyik csoportban, a másikban 24-et máris csak egész gyerekről beszélünk és nem két kézről meg egy lábról). De láttam már olyat is, hogy a férfi kitöltőt 1-el, a nőt 2-vel jelölte az illető majd átlagolta az oszlopot (a t-próba átlagol). Elképzelem azt az elemet ahol 1,2 jön ki (egy kicsit féri de már majdnem nő...). Ezeket látni kell és érteni az adatokat és azt, hogy mi van a módszerek mögött.
Ezért van több tucat statisztika próba és módszer, mert az adatok jellege alapján tudunk választani megfelelő módszert. De amíg nem látjuk az adatokat nem tudjuk kijelenteni, hogy a t-próba használható. A fentiek közül még az a legesélyesebb. Mert két pontra nem lehet regressziót számolni,de korrelációt is nehéz.
1. válaszadónak: tény, hogy ma már léteznek nagyon jó multidimensional módszerek is amik az "összes" választ egyidejűleg tudják vizsgálni, de ezekhez meg nagyon jó kérdőív kell, és ha a kérdezőnél már itt alapvető "fogalmi" zavarok vannak nem ajánlanám ezeket, mert beviszi az őserdőbe. aztán küldhetjük a mentőcsapatokat :)
#4
Én nem a multidimensional módszerekre gondoltam a válaszokban (amúgy sem értek különösebben a társadalomtudományokhoz, sem a kérdőívekhez). Arra próbáltam célozni, hogy még ha alkalmazható is a t-próba, és szignifikáns eltérést is ad a két csoport között, az még nem jelenti azt, hogy az eltérés oka a nem, hiszen a próba önmagában csak az eltérést vizsgálja, nem oksági kapcsolatot.
Hogy mondjak egy példát: ha azt vizsgáljuk, hogy melyik nemű személyek milyen gyakran hordanak harisnyát, valószínűleg azt kapnánk, hogy a nők szignifikánsan többször hordanak. De ha egy 18. század populációt vizsgálnánk, akkor valószínűleg rögtön más lenne a helyzet.
" Ha csak 1-1 válasz esetén van nemi eltérés akkor ott lehet "mérési hiba" pl. nem jól megfogalmazott kérdés, és a kérdés megértésében van nemi eltérés"
Itt nem csak (nem elsősorban) arról van szó, hogy hibás a kérdés, hanem ha nagyon sok ilyen eltérést vizsgálunk például t-próbával, akkor még akkor is lesz néhányban szignifikáns különbség a nagy számok törvénye alapján, ha teljesen random válogattuk szét a csoportokat.
6. 21:56.
--- off ---
Igen, és pont erről írtam, hogy sok helyen elvárják a hallgatótól (és szerintem itt is ez van), aki azért ment társadalom tudományra vagy pl. védőnőnek, csecsmőgondozónak, ápolónak stb. mert matekból nem olyan erős. Majd tanulnak valamennyi statisztikát, majd a szakdolgozat íráskor bedobják a mélyvízbe, hogy "édes ecsém csinálj kérdőívet, csinálj hozzá /előre/ hipotézist, hogy mi lesz az eredmény, majd vedd fel rndom sok-sok emberrel, és értékeld ki statisztikai módszerekkel". így ebben az időszakban napi több ismerős kér meg, hogy töltsem ki a kérdőívét, esetleg segítsek kiértékelni. Eleve a kérdések hibásak, a kérdőívből nem derül ki mit akar mérni, beletesz egy alap demográfiai profilt (életkor, hol lakik, mi a végzettsége, neme stb.). Majd lesz 2-300 keservesen összeszedett kérdőíve. Majd neki esik valami statisztikával. Erről nem a hallgató tehet hanem a rendszer.
Majd amikor jön a pofára esés (mint itt fent) akkor jön, hogy jajj segítsen valaki. Ha szserencséje van a témavezetője, és a témavezető haverja (Aki a bíráló lesz) legalább ennyire nem ért a statisztikához és így egy látszat statisztikával megtámogatott bullshitre kap egy 5-öst.
--- off vége ---
Eleve az így felvett kérdőívek semmiben nem tekinthetőek reprezentatívnak (a facebookon elért barátokra és azok barátaira reprezentatívok). Nem történik meg még alapszinten sem a reprezentativitás vizsgálata a vizsgált célcsoporthoz. Általában "ferdék" a minták főleg a nemet tekintve (lényegesen több nő tölti ki mint férfi). Én még olyat nem láttam ahol a társadalomra jellemző közel 50-50% arány lenne. A tanár sugalatára van 40-50 (de láttasm már 200 kérdéses kérdőívet is) kérdés kb. 200 kitöltőhöz. Eleve itt már bukik az egész mert pici a minta. A kitöltők jelentős része nem is érti a kérdést (vagy félre érti és tök másra válaszol). Majd a magára hagyott hallgató szenved a kiértékeléssel.
Alapvetően a legtöbb ilyen kérdőívnél (én több tucatot láttasm már) az eloszlás és a minta szám miatt a két mintás t-próba nem használható, viszont mást nem nagyon tanulnak. Komolyabb helyeken talán a chi-négyzet próbát még megemlítik diszkért változók esetére. A kérdőívekben nincsenek kontroll kérdések amivel valamennyire lehetne hihetőség vizsgálatot végezni. A válaszok egyrésze teljesen random (pl. a "kitöltöm neked de akkor te is töltsd ki az enyémet" megoldások miatt).
Ezek a kérdőívek ott hibásak, hogy egyáltalán nem lehet a háttér folyamatokat mérni velük (volt olyan amin megpróbáltunk faktor és főkomponens elemzést végezni de nem lehetett). Tehát pl. a te példád alapján kijön szépen, hogy a nők körében gyakoribb a szoknya hordás mint a férfiaknál. De a nőknél sem lesz 100%. Míg he ezt megmérted volna 150 évvel ezelőtt a különmbség még nagyobb lett volna. Most pont a hibás kérdőív szerkesztés és hibás kérdések miatt annyit látsz, hogy van eltérés a két nem által adott válaszban. De pl. az, hogy ezt az eltérést mi okozza azt már nem fogod látni. Pl. találkoztam olyannal, hogy 90-10% arányban nők töltötték ki a kérdőívet, és kijött a hallgatónak t-próbával, hogy a nők átlagos iskolai végzettsége magasabb mint a férfiaké. Ugye eleve iskolai végzettésgre (1- kevesebb mint 8 általános, 2 8 általános, 3-gimnázium, 4-szakisola, 5-szakközép/szakgimnázium, 6-OKJ, 7-főiskola/egyetem jelöléssel) nehéz értelmezni az átlag fogalmát (nem skála) de a bátor versenyző t-próbával 90-10% nemi arány esetén kihozta leírta, büszke volt magára. De láttam próbálkozást a "hány gyermeket szült" kérdés esetén arra, hogy nemi eltérést vizsgáljon.
A kiértékelésre azt az itinert kapták, hogy képezzenek csoportokat (pl. nem, lakóhely stb. szerint, lehetőleg úgy, hogy 2 csoport keletkezzen) és nézzék meg minden kérdés esetén azt, hogy van-e eltérés a két csoport válaszában. Nyilván lesz néhány kérdés ahol lesz, lesz néhány ahol nem. De azt már nem vizsgálják tovább, hogy ez valós vagy ltászat eltérés (nem is tanulták). Itt lenne jó ha a kérdőív nem lenne hibás és a kérdések egymást erősítenék (valamennyire összefüggenének). Ha (úgy tekinthetjük) multidimensional módszerekkel néznénk akkor egy-egy kérdés egy-egy tengely lenne az n dimenziós valószínűségi vektortérben, viszont a kérdések úgy vannak kitalálva, hogy ezek gyakorlatilag egymásra "merőlegesek" ha egy-egy "irányba" lenne több kérdés akkor lehetne ellenőrizni a válaszokat és a statisztika kicsit biztosabb lenne. Pl. egyik kérdés: "milyen gyakran hord szoknyát?" a másik kérdés: "milyen gyakran szokott nadrágot hordani?" (statisztikai hibahatáron belül a két kérdésre ellentétes válasznak kell kapjunk). így ellenőrizhető a kérdőív (én pl. simán eldobom azokat ahol ilyenkor mindkét kérdésre "a mindig azt hordok" válasz érkezik). Nyilván lehet ennél finomabban megkérdezni ugyanazt. Máris azt kapjuk, hogy egy egy "irányban" több kérdésünk van és ha az egyik kérdésre azt kapjuk, hogy van nemi eltérés, a másik "párhuzamos" kérdésre azt, hogy nincs akkor vizsgálható az eltérés oka. De amíg a kérdések "merőlegesek" egymásra addig ezt nehéz megcsinálni. Ok, hogy a lin.korrelációs lineáris függőséget mér, de nem egy szakdolgozato kérdőívnél a teljes korrelációs mátrixban nincs 0,4 abszolutértéknél nagyobb korreláció. Nem ellenőrizhető a kitöltés, és így nem tudjuk soha megmondani, hogy az eltérés véletlen (ahogy te írtad, hogy sok kérdés esetén találunk eltérést), az eltérés mérési hiba (pl. másképpen értik a kérdést ld. korábban írtam "nekem a barack pálinka, a feleségemnek egy szín"), vagy az eltérés valós és foglalkozni kell vele. Erre azonban adat az nincs a kérdőívben. Marad a sötétben tapogatás.
Ez a nehézsége egy jó kérdőívet összeállítani, meg kitalálni, hogy mit is akarunk mérni. Többször voltam olan szemét, hogy ismerős ismerősének megosztására kapott kérdőív kitöltése közben írtam a "szerzőnek", hogy ez komoly vagy viccnek szánta, mert,h ogy kiértékelni nem fogja az biztos. Aztán 3 hét múlva írt emailt, hogy "lécci segíts, mert elakadtam a kiértékelésnél".
-- off vége ++ ---
Az alapkérdésre adott korábbi válaszomat fentartom, és azt mondom kellő körültekintéssel két mintás t-próba használható, de nagyon meg kell nézni, hogy egyáltalán használható-e az adott mintán. Illetve nagyon meg kell nézni, hogy ami eltérés kijöt az magyarázható-e a többi kérdéssel. Pl. egyik kérdés: "a kis, közepes, vagy a nagytestű kutyákat venne maga mellé?" a másik kérdés: "az alábbi kutyafajták közül melyiket mennyire szívesen fogadna be menhelyről a képen látható a. csivava, b. mopsz, c, toy uszkár, d. moszkvai őrkutya, e. német dog, f. berni pásztor fajtájú kutyákat?" Ha az előzőre az írja a kis testűre, hogy egyáltalán nem majd itt beírja, hogy a csivit 100%-ban akkor ott baj van.De ha két kérdésre adott válaszokban egyirányú az eltérés akkor elfogadható. Persze ha nincs a kérdőívben "kontroll kérdés" akkor baj van.
köszönöm mindenkinek a segítséget!
próbálok mindenre reagálni röviden tömören
-egy klinikai teszttel mérek egy biomarkert longitudinálisan, és a változását nézem pl nemenként, vagy egyéb biomarkerek vetületében.
-a mintaszáma alacsony, de cserébe nemek tekintetében (58-42%) szimmetrikus, ezért bátorkodom hipotézist alkalmazni rá.
-az egyik hipotézis, miszerint a nem hatással van ennek a biomarkernek a változására, tehát ha csak t-próbát alkalmazhatok akkor meg kell fordítani valami olyasmire, hogy "nemenként eltérés van". a nem kvázi bináris, de skála változóknál hogyan hozzak létre 2 csoportot? ez talán a részminta képzés? azt csináltam, hogy kiszámoltam az átlagot és az egyik csoport átalgon alul a másik meg felül volt. ez megfelelő részmintaképzésnek minősül?
ha nem mehet a t-próba, akkor spearman korrelációt csinálnék az alacsony mintaszám miatt, csak nemtom hogy kell de megtanulom ha csak az jó. valójában az egyetemen... hogy mondjam káromkodás nélkül hogy semmit nem tanítottak ez ügyben? tehát van egy szakadék a az adott és elvárt anyag között, de ez gondolom ismerős.
Bocsánat, de nekem nem egészen világos, mit keresel. Ha csak a két nem átlagát akarod összehasonlítani, és az adatok normál eloszlásúak, akkor nyugodtan próbálkozz egy kétmintás t-próbával (esetleg egy Welch próbával).
Ahogy a 3. válaszoló is írta, kiindulásnak biztos jó, ha azzal van szignifikáns különbség, akkor legfeljebb csekkolod, hogy tényleg használható-e, és ha nem, keresel mást.
Ebben az esetben viszont nem értem, mit akarsz a Spearman rankkorrelációt csinálni?
Ha viszont más biomerkerekkel való összefüggést nézel, akkor értem a korreláció/regresszió számítás használatát, de nem nagyon tudom elképzelni a t-próba használatát.
Szóval a kérdés megválaszolásához tudni kéne, hogy pontosan mit (miket) is akarsz megvizsgálni.
Kis mintaszám mit takar konkrétan?
Ha a független változód a nem, akkor rendben van a t-teszt, de annyit mindenképp nézz meg előtte, hogy normális eloszlású-e a függő változód, azaz a biomarker szint változása. Ha nem az, de triviálisan azzá transzformálható (pl. lognormális jellegű génexpresszió: log-transzformáció után kb. normális) akkor előbb transzformáld.
Ha végképp semmit nem tudsz mondani az eloszlásáról, vagy nem tudod minimális transzformálással normálissá tenni, akkor t-teszt helyett nemparametrikus tesztet használj, pl. Mann-Whitney U-teszt.
Ha a független változód egy másik biomarker, akkor eszedbe ne jusson küszöbölni és alacsony/magas csoportokra osztani csak azért, hogy ráerőltethess egy t-tesztet. Rengeteg információt dobnál ki ezzel. Az általad is írt Spearman sokkal jobb választás ez esetben.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!