Van itt olyan, aki gépi tanulás területen dolgozik és mesélne picit?
Amiket pl. én csinálok:
- Az ügyfél ad egy mintát az adataiból és nagyjából elmondja, hogy mit szeretne (ez többnyire valamilyen nagyon ködös elképzelés), ezek ilyenek, mint hogy: "szeretnék egy olyan algoritmust, amely megjósolja, hogy hogyan alakul a bevétel / termés / ár / ... / ..."
- Az adatmintát "szétszedjük", felfedezzük, ebből kialakul egy kép, hogy nagyjából mire van lehetőség
- Az ügyféllel közösen kitaláljuk, hogy mit és hogyan lehetne megvalósítani abból, amit szeretne
- Elkezdjük az adatait mélyebben elemezni. Az adatokon belül összefüggéseket tárunk fel – sok esetben az ügyfél már itt ledöbben, hogy ezt nem is gondolta volna [nagyon meglepő, az emberek mennyire nem ismerik a saját adataikat, illetve ha soha nem elemezték, mi minden fölött siklottak el]
- ... eközben igazából adatot tisztítunk (pl. kitöltjük a hiányzó adatokat valamilyen módszerrel), nagyon szép grafikonokat készítünk (de ne ilyen egyszerű tortadiagramra gondolj, hanem gyönyörű vizualizácókra mint pl. [link] vagy [link] hozzá magyarázó szöveget írunk stb.
- Elkezdünk adatot modellezni. Az adatmodellezés során különböző gépi tanulásos (machine learning azaz ML) modelleket próbálgatunk rá az adatokra, ezek maguk a "jósló" algoritmusok
- Mi többnyire interaktív dashboardokat készítünk, ezek böngészőben futó interaktív honlapok, mint pl. [link]
- Ha készen vannak az adatmodellek, akkor ezekből profi un. pipeline-okat készítünk (ezek programok amelyeken az adat "végigfut", ezek hozzáférnek az ügyfél rendszereihez, lekérik az adatokat, végigfuttatják az adattisztító algoritmusokon, utána a modelleken [jósolnak], a végeredményt meg vagy elküldik a dashboardra, vagy adattárházba / adatbázisba mentik, az ügyfél hozzáférhet más rendszerekből (un. API-kon keresztül) stb.
A data scientistek feladatai kb. tehát az ügyfelekkel való tárgyalás, üzleti problémák megértése, adatok megismerése, feltérképezése, adattisztítás, adatmodellezés, programozás, vizualizációk és prezentációk készítése, dashboardok vagy APIk vagy más megoldások programozása és a megoldás üzembe helyezése.
A Data Scientistek tevékenységeinek egy részét az un. Machine Learning Engineerek végzik, ez a kettő keveredő fogalom. Amerikában inkább MLE-k dolgoznak, Európában mi data scientistek vagyunk a MLE-k is. Illetve maguk a Data Scientistek is specializálódnak, van aki csak adatokat turkálni és adatmodellezni szeret, van aki programozni, van, aki üzleti problémákat megoldani és ügyfelekkel tárgyalni. Nagyobb csapatokban van lehetőség "helyezkedni".
A data scientistek munkáját segítik a data engineerek, akik igazából az adat alapú megoldások üzemeltetői ("rendszergazdái")... ők felelősek az infrastruktúráért, adatbázisok üzemeltetéséért, de nálunk pl. beleszólnak a data scientistek kódjaiba is (a hajukat tépve, mert a data engineerink általában informatikusok, a data scientistjeink meg matematikusok / statisztikusok, nem mindig a legjobb programozók).
Végül, hogy miket készítenek az adattudósok? Pár ismertebb példa:
- a netflix, hbo app ajánlórendszereit
- a Tesla önvezető algoritmusát
- a Gmail stb. spam filterét
- az orvosi műszerek rákfelismerő algoritmusait
- az Apple Watch stb. health algoritmusait (pl. alvásmonitor stb.)
- a biztosító társaságoknál a hitelbírálatot
- befektetési bankoknál a részvényekkel kereskedő algoritmusokat
stb. stb. Hamarosan mindent átszőnek az ilyen típusú megoldások, az egész nagyon gyerekcipőben jár még, és éppen ezért aranybánya. Iszonyú sokat lehet vele keresni, az informatikus fizetések felső harmadánál kezdődnek a data scientist fizetések.
Sokféle módon lehet valaki data scientist, Magyarországon pl. (pár tipp):
- Matek alapszak + alk. matek mesterszak
- Matek alapszak + biztosítási matek mesterszak
- Fizikus alap- és talán mesterszak, vagy alk. matek vagy biztosítási matek mesterszak
- Programtervező informatikus alapszak + elte data science mesterszak (csak angolul van) vagy valami data science mesterszak külföldön
- Corvinus vagy PTE Gazdaság- és pénzügymatematikus osztatlan szak (GPME)
- Corvinus alk. közgazdaságtan alapszak + SCM képzés + pl. biztosítási matek vagy elte survey statisztika és adatanalitika mesterszak
- Villamosmérnök vagy mérnökinformatikus alapszak + megintcsak valami célirányú mesterszak itthon vagy külföldön
- Pénzügy-számvitel vagy marketing alapszak + elte survey statisztika mesterszak
- Szociológia alapszak + elte survey statisztika mesterszak
- Biológus alapszak + biostatisztika vagy bioinformatika mesterszak külföldön
A biológia és szociológia alapszakok elsőre furcsának hangzanak, pedig ők ülnek nagytömegű valódi adatokon rögtön az első évtől kezdve, ők tanulnak kutatási módszertant és adatprogramozást is, és sokan lesznek közülük data scientistek.
A fizikus is furának tűnhet, pedig az egyik legjobb képzettség ehhez, mivel iszonyúan jók matekból és statisztikából és tudnak programozni is Pythonban és C++-ban.
A fentiek mindegyike kb. ugyanolyan jó, de a legjobb szerintem egy alk. matek alap- és talán mesterszak + valami data science mesterszak külföldön.
#1 remek válasz, szakmabeliként mindennel egyetértek!
Annyit kiemelnék viszont, hogy eléggé változó, hogy mi a feladatos data scientistként. Vannak akik nem fognak adatot tisztítani és csak a "matekosabb dolgokkal" foglalkoznak.
Meg vannak olyanok, akik nem valami modellt tanítanak be egy probléma megoldására, hanem cégeknek segítenek rengeteg felhasználói adatból valami anomáliát felfedezni, ami választ ad minél több kérdésükre/problémára. Itt pl tisztítgatsz sokat és nagyon fonfos, hogy mennyire kommunikálsz jól és hogyan adod elő amit találtál, mert te fogod ezt elmagyarázni a megrendelőnek:D
Tehát éles különbségek vannak szakmán belül és ha tényleg erősen csak az ML érdekel, akkor neked a matekosabb területre kell menned. Ide szerintem az is jó kombó lehet, hogy matek bsc és onnan valami infós ezzel foglalkozó msc, mert sok matek bsc-n van infós spec, tehát mehetsz nyugodtan nem csak alk mat msc-re és a bsc nagyon jó alapokat ad, hogy autodidakt módon tanulj majd otthon plusz matek témaköröket, ha szükséges. Ezt csak azért írom le, mert alk matek msc-re nem mindenki képes ÉS nincs itthon levelezőn, szóval ha szeretnél a lehető leghamarabb dolgozni, akkor vagy külföldön kell keresned ilyen szakot (kegyetlen drága) vagy mást kellene választani.
Az interjúk elégge project függők, viszont matekosabb területen erősen szakmaiak pályakezdőként is. Nem fogsz papíron matekozni, viszont itt nem csak valami HR-es csajszi fog interjúztatni, a későbbi körökben jönnek az expertek és nekik kell eladni magadat. Szóval nem csak érteni kell, de nagyon jól kell tudni beszélni is a területedről. Az angol pedig elengedhetetlen, mert matekosabb ds pozíciók itthon szinte mind már angolul is vannak meghírdetve:D meg ilyesmivel célszerű lenne külföldre költözni/dolgozni, mert mi levagyunk maradva még itthon sajnos. Lesz munkát, az miatt ne aggódj, csak 7 év múlva mikor válogathatsz bármilyen munkahely között, akkor eléggé korlátozva leszel itthon és lehet nem találsz érdekes projectet.
"A fizikus is furának tűnhet, pedig az egyik legjobb képzettség ehhez, mivel iszonyúan jók matekból és statisztikából"
Nyilván, hiszen a fizika az lényegében matek, szép selyemköntösben.
"és tudnak programozni is"
Ez a képesség azért messze nem olyan általános közöttük, mint ahogy sugalmazod. :)
Az a kitétel, hogy "tud programozni" azért elég széles spektrumú valami.
Egy big-datás simán lehet szar programozó, mert az esetek nagy részében, ahogy te magad is írod, nem számít, hogy az elemzésnek mi a futásidő igénye, hiszen úgy is csak néhány tovább feldolgozható adattömeg, vagy prezentáció lesz a végtermék.
Ha kell erre eklatáns példa, ott van Page és Brin, meg a Google.
További kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!