Mit csinál egy adattudós?
A data scientist ("adattudós") voltaképpen egy programozó statisztikus, aki [jó esetben nagy tömegű] adatot elemez, azokra ír tanuló algoritmusokat, illetve adatelemzésen alapuló szoftvereket vagy legalábbis azoknak egy részét készíti. (Közérthetőbb, de parasztvakításosabb nyelven szólva mesterséges intelligencia-alapú megoldásokat készít.)
Amiket pl. én csinálok:
- Az ügyfél ad egy mintát az adataiból és nagyjából elmondja, hogy mit szeretne (ez többnyire valamilyen nagyon ködös elképzelés), ezek ilyenek, mint hogy: "szeretnék egy olyan algoritmust, amely megjósolja, hogy hogyan alakul a bevétel / termés / ár / ... / ..."
- Az adatmintát "szétszedjük", felfedezzük, ebből kialakul egy kép, hogy nagyjából mire van lehetőség
- Az ügyféllel közösen kitaláljuk, hogy mit és hogyan lehetne megvalósítani abból, amit szeretne
- Elkezdjük az adatait mélyebben elemezni. Az adatokon belül összefüggéseket tárunk fel – sok esetben az ügyfél már itt ledöbben, hogy ezt nem is gondolta volna [nagyon meglepő, az emberek mennyire nem ismerik a saját adataikat, illetve ha soha nem elemezték, mi minden fölött siklottak el]
- ... eközben igazából adatot tisztítunk (pl. kitöltjük a hiányzó adatokat valamilyen módszerrel), nagyon szép grafikonokat készítünk (de ne ilyen egyszerű tortadiagramra gondolj, hanem gyönyörű vizualizácókra mint pl. [link] vagy [link] hozzá magyarázó szöveget írunk stb.
- Elkezdünk adatot modellezni. Az adatmodellezés során különböző gépi tanulásos (machine learning azaz ML) modelleket próbálgatunk rá az adatokra, ezek maguk a "jósló" algoritmusok
- Mi többnyire interaktív dashboardokat készítünk, ezek böngészőben futó interaktív honlapok, mint pl. [link]
- Ha készen vannak az adatmodellek, akkor ezekből profi un. pipeline-okat készítünk (ezek programok amelyeken az adat "végigfut", ezek hozzáférnek az ügyfél rendszereihez, lekérik az adatokat, végigfuttatják az adattisztító algoritmusokon, utána a modelleken [jósolnak], a végeredményt meg vagy elküldik a dashboardra, vagy adattárházba / adatbázisba mentik, az ügyfél hozzáférhet más rendszerekből (un. API-kon keresztül) stb.
A data scientistek feladatai kb. tehát az ügyfelekkel való tárgyalás, üzleti problémák megértése, adatok megismerése, feltérképezése, adattisztítás, adatmodellezés, programozás, vizualizációk és prezentációk készítése, dashboardok vagy APIk vagy más megoldások programozása és a megoldás üzembe helyezése.
A Data Scientistek tevékenységeinek egy részét az un. Machine Learning Engineerek végzik, ez a kettő keveredő fogalom. Amerikában inkább MLE-k dolgoznak, Európában mi data scientistek vagyunk a MLE-k is. Illetve maguk a Data Scientistek is specializálódnak, van aki csak adatokat turkálni és adatmodellezni szeret, van aki programozni, van, aki üzleti problémákat megoldani és ügyfelekkel tárgyalni. Nagyobb csapatokban van lehetőség "helyezkedni".
A data scientistek munkáját segítik a data engineerek, akik igazából az adat alapú megoldások üzemeltetői ("rendszergazdái")... ők felelősek az infrastruktúráért, adatbázisok üzemeltetéséért, de nálunk pl. beleszólnak a data scientistek kódjaiba is (a hajukat tépve, mert a data engineerink általában informatikusok, a data scientistjeink meg matematikusok / statisztikusok, nem mindig a legjobb programozók).
Végül, hogy miket készítenek az adattudósok? Pár ismertebb példa:
- a netflix, hbo app ajánlórendszereit
- a Tesla önvezető algoritmusát
- a Gmail stb. spam filterét
- az orvosi műszerek rákfelismerő algoritmusait
- az Apple Watch stb. health algoritmusait (pl. alvásmonitor stb.)
- a biztosító társaságoknál a hitelbírálatot
- befektetési bankoknál a részvényekkel kereskedő algoritmusokat
stb. stb. Hamarosan mindent átszőnek az ilyen típusú megoldások, az egész nagyon gyerekcipőben jár még, és éppen ezért aranybánya. Iszonyú sokat lehet vele keresni, az informatikus fizetések felső harmadánál kezdődnek a data scientist fizetések.
Sokféle módon lehet valaki data scientist, Magyarországon pl. (pár tipp):
- Matek alapszak + alk. matek mesterszak
- Matek alapszak + biztosítási matek mesterszak
- Fizikus alap- és talán mesterszak, vagy alk. matek vagy biztosítási matek mesterszak
- Programtervező informatikus alapszak + elte data science mesterszak (csak angolul van) vagy valami data science mesterszak külföldön
- Corvinus vagy PTE Gazdaság- és pénzügymatematikus osztatlan szak (GPME)
- Corvinus alk. közgazdaságtan alapszak + SCM képzés + pl. biztosítási matek vagy elte survey statisztika és adatanalitika mesterszak
- Villamosmérnök vagy mérnökinformatikus alapszak + megintcsak valami célirányú mesterszak itthon vagy külföldön
- Pénzügy-számvitel vagy marketing alapszak + elte survey statisztika mesterszak
- Szociológia alapszak + elte survey statisztika mesterszak
- Biológus alapszak + biostatisztika vagy bioinformatika mesterszak külföldön
A biológia és szociológia alapszakok elsőre furcsának hangzanak, pedig ők ülnek nagytömegű valódi adatokon rögtön az első évtől kezdve, ők tanulnak kutatási módszertant és adatprogramozást is, és sokan lesznek közülük data scientistek.
A fizikus is furának tűnhet, pedig az egyik legjobb képzettség ehhez, mivel iszonyúan jók matekból és statisztikából és tudnak programozni is Pythonban és C++-ban.
A fentiek mindegyike kb. ugyanolyan jó, de a legjobb szerintem egy alk. matek alap- és talán mesterszak + valami data science mesterszak külföldön.
Eredetileg gazdaságinformatika alapszakra szerettem volna menni. Ha ezt választanám, tudnék utána olyan mesterszakra menni, ami megfelelő lenne?
Te Magyarországon vagy külföldön dolgozol? Magyarországon vannak lehetőségek? Elsősorban Ausztriára gondoltam, de lehet, hogy kezdésnek szerencsésebb lenne majd itthon munkába állni.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!