Regresszióanalízis segítség?
Bár tanultam Statisztikát, most mégis bajban vagyok. Az egyik piacvezető cégnek dolgozom, ahol háztartási kis- és nagygépeknek kell a disztribúciójáról gondoskodnom az EU több országában.
Ha azt szeretném méréssel kimutatni, hogy milyen kapcsolat van, mondjuk egy hűtő színe, illetve az eladások számának alakulása között, milyen elemzést válasszak? Annyit tudok, hogy ez egy minőségi és mennyiségi ismérv, tehát korrelációelemzés kizárva.
Továbbá az analízis alapján kapott értékek közül mi lehet az, ami számomra releváns?
Köszönöm
multikollinearitás ... állandóan elírom ezeket a hülye összetett szavakat
Meg ami még fontos, hogy az adatoktól is függ mit tudsz csinálni, mert lehet metszeti adat, hogy pl. ebben az évben mennyi hűtő fogyott a különböző színekből. De más a helyzet, ha több időperiodusra van adat, másnéven panel, tehát több évre vagy hónapra minden színre eladási adat, mert akkor idősorelemzés is van, ami megint bonyolítja a dolgot (ARIMA hibatagok). Aztán ha úgy van adat pl, hogy régiónként, üzletenként, hűtőmodellenként stb. akkor meg az ún. kevert modelleket (mixed effects, hierarchical models) kell használni.
Nagyon szépen köszi!
Természetesen elérhetőek havi bontásban az adatok is, ami az eladásokat illeti, ráadásul több márka is. Gondolom ezeket is össze lehetne vetni, hogy megnézem mondjuk a kék-fehér hűtők alakulásának a számát 10 hónapos időintervallumban, 2 konkurens márka esetében (Gfk-adatokkal is dolgoznom kell).
Azt akarom tkp elkerülni, hogy az elődöm "ráérzett" (tudjuk, hogy intuíció nem létezik, ezt csak mi emberek találtuk ki) arra, hogy pl. 4 fiókos hűtő helyett jőjjünk be 5 fiókossal. Neki bejött, kapta is a prémiumot. De én szeretnék számokat is mőgé tenni, miért is gondolom, hogy pl. a szín determinálja az eladást.
Az eladási adatokból eleve meg tudod mondani, százalékosan hogy melyik szín dominált és többé kevésbé mutatja a "piaci részesedését" a színeknek, azaz hogy mennyire fontosak.
A probléma ott van, hogy
1) A színek aránya nem független egy csomó más dologtól. Lehet hogy árban eltérnek, mások a termékmodellek és a paraméterek, az üzletekben nincs mindenhol meg a választék ugyanúgy, nincs kirakva az eladótérbe stb.
2) Időben is változékony a dolog és területileg is, csak mintát veszünk egy adott időpontban adott területen hogy melyik fogy (meg eleve lehet hogy az ilyen eladási adatokat is a piackutató cég valami kis mintavétellel csinálja, amit felszoroz). Neked meg nyilván általános összefüggés kell előrejelzéshez, hogy mennyi fog fogyni belőle ha bevezetik.
Az alábbi ötleteim vannak:
1) Olyan termékpárokat kell keresni, ahol minden paraméter egyezett, márka, termékmodell, ár, csak a szín tért el. Minél több ilyen párt kell keresni és itt elve lehet látni arányaiban, hogy melyik szín volt a keresettebb.
2) Következtető statisztikailag pedig lehet páronként tesztelni ún. binomiális teszttel hogy mennyire szignifikáns az eltérés az 50%-tól, ha közel van ahhoz. (Mert ugye a feltételezés az, hogyha nincs eltérés a színek között, akkor 50-50% fogyna. A binominális teszt meg azt teszteli, hogy ettől szignifikánsan eltérünk e. Ha eleve 20%-80%-ra jön ki az arány akkor különösebben teszteli sem kell, mert egyértelmű). De vigyázni kell, mert ha a piackutató cég adatai eleve mintavételezéssel készülnek és ő fölszorozza, akkor csalóka az adat. Az eredeti mintaszámból kell kiindulni. Továbbá ez minden pár-ra minden területre és időintervallumra egy tesztet csinál. Tehát ebből nem következik általános összefüggés, hanem csak adott termékpárra.
3) A pontosabb, összetettebb megoldás, hogy területileg részletes felbontásban (akár üzletekig) a már említett kevert modellekkel lehet valamit csinálni, azon belül is a generalizált Poisson eloszlásos változatával, hogy az üzlet és a termékmodell a véletlen effektus, a szín meg a fix effektus, a függő változó pedig az eladott darabszám. Ha meg időbeli adatok is vannak havi bontásban minden üzletre, minden modell párra, akkor kicsit bonyolódik még az időtagok miatt, de még pontosabb lesz. A lényeg, hogy ebből kijön hogy kb. hogy mennyivel többet adnak el az adott színből és hogy szignifikánsnak vehetjük e az eltérést.
De szerintem egy gyártó cég szempontjából, ha az a kérdés, hogy valamit piacra dobjunk és van e rá kereslet, az inkább marketinges jellegű dolog. Erre a korrekt módszer a végfelhasználóra vonatkozó piackutatás és logisztikus regressziós vagy multinomiális logisztikus regressziós módszerekkel. Megkérdezik a vásárlót vagy kísérleti személyt hogy bizonyos termékek közül melyiket választaná. És ebből jól kijön, hogy a szín hogy befolyásolja a döntését a vásárlói csoportoknak, jobban eladható e úgy.
Wao... Szerintem maradok a tippnél akkor... :D Alapból sem kell ez a munkámhoz, at gondoltam, mégis lehetne használni valahogyan, legalább az alapokat, de tévedtem, hehe.í
Annyit még árulj el nekem: Ha lineáris regressziónál 5% a hibahatár, amin belül elfogadom, hogy nem a véletlennek köszönhető az eltérés mondjuk 2 hűtő eladásszámainak alakulásában (ha p = 2.5% akkor ez gondolom azt jelenti, hogy 97.5%-ban biztos lehetek abban, hogy nem véletlenszerű az összefüggésem, és a HO hamis).
Viszont korreláció elemzésnél egy feladat úgy indít: csak azokkal a párokkal foglalkozzam, amelyeknél 0.25-nél nagyobb értéket kapok a korrelációs együtthatóra MERT akkor 95%-ban tuti, hogy nem a véletlennek...
hogyan függ össze a 0.25 és a 95? Mert ha nő, és mondjuk az együtthatóm 0.5, akk mennyi lesz a %?
A regresszió sok dologra használható, és ez az alapja az összetettebb módszereknek is.
A te esetedben az a gond (elhamarkodottan írtam az elején hogy könnyen megoldható),
hogy a rendelkezésre álló adatokból nehezen lehet ilyen összefüggést kiszedni.
Akár időbeli, területi, vagy mindkettő bontásban próbálunk összefüggést keresni simán az eladások és a szín között regresszióval vagy varianciaanalízissel, részlehajlás lesz az eredményben, azaz téves lesz mert egy csomó más tényezőt kihagyunk, ami befolyásolja az eladásokat. (ár, termékparaméterek, üzletben hogy rakták ki stb.) Ha ezeket nem vesszük figyelembe, akkor nem tudjuk, hogy tényleg a szín miatt fogyott jobban vagy egyéb dolog miatt.
A regresszió esetén a p értéket körülbelül jól írod. Az a béta koefficiensre vonatkozik, és az a null hipotézis hogy nulla az koefficiens értéke. Ha a p elég kicsi, akkor elvethetjük a hipotézist hogy nulla a béta, tehát feltételezhetjük az összefüggés az adott független változó és a függő változó között. Kicsit szakszerűbben: ha valóságban nincs kapcsolat, és sokszor újra mintát vennél és lefuttatnád a regressziót, akkor p százaléknyi esetben jönnek ki olyan 0-tól távoli vagy távolabbi béta becslés mint most. Tehát azt mondja meg, mennyire "extrémen" tér el a becsült béta a 0-tól, hogy feltételezhessük, hogy a valóságban sem nulla.
A korrelációs együtthatónak ehhez nem sok köze van, és amit annál a feladatnál olvastál vagy nem stimmel, vagy félreérthető volt. A korrelációs együtthatónak önmagában semmi köze a p-hez. De ez a regresszióra és minden más statisztikai módszerre is igaz: Van a leíró statisztika amikor kiszámolok valami mutatót. Regressziónál pl. a béta koefficienst, korrelációnál, a korrelációs együtthatót, (róval is jelölhetjük), de akár valaminek az átlagát is kiszámolhatom. Ez mind csak becslés ha mintavételről van szó - és szinte mindig arról van szó.
A következtető statisztikai rész épül erre (ami jól megbonyolítja) hogy az a valami amit kiszámoltam, az mennyire állja meg a helyét a valóságban, mennyire térhet el pl. a nullától valóságban.
Korrelációnál is ugyanúgy ki lehet számolni az együtthatót - ami az összefüggés erősségét mutatja. És utána lehet korrelációs tesztet végezni, ami meg egy p-t ad. A kettőnek közvetlenül semmi köze nincs egymáshoz. A p érték azt fogja ott is megmondani, ha pl. 0.25 kijött az együtthatóra, és ha ezzel szemben a valóságban mégis 0 az értéke, akkor sok ismételt mintavétel és számolás után p százaléknyi esetben kapnánk 0-tól ennyire távoli értéket. Tehát béta regressziónál, és ró a korrelációnál a hatás becsült erőssége, a p meg ennek a "megbízhatósága", hogy mennyire bízhatok benne hogy a valóságban a hatás erőssége nem nulla a becsülttel szemben.
További kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!