Kezdőoldal » Számítástechnika » Programozás » Milyen mélységű statisztika...

Milyen mélységű statisztika tudás kell a gépi tanulás/data science területén való elhelyezkedéshez?

Figyelt kérdés

Egy matematika bsc-vel a hátam mögött, illetve most PTI szak vége azon agyalok, hogy ezen a területen mélyednék el, illetve próbálnék elhelyezkedni valahogyan, hogy majd a munkában megtanuljam a dolgokat, de valami alap kellene.

A legnagyobb problémát az jelenti, hogy nem tudom hova koncentráljam az tanulásra szánt időmet. Foglalkozzam adatbázisokkal, SQL-el vagy inkább Pythonozzak többet? Esetleg konkrét technológiáknak nézzek utána?

Illetve matematikából sokat felejtettem, vissza szeretném hozni magam egy erősebb szintre, viszont azt sem igazán tudom belőni, hogy mennyire menjek mélyre. (Hiszen ugye az is idő és igazából végtelen mélységei vannak).

Elégedjem meg a statisztikai módszerek átnyálazásával és kb értsem, hogy hogyan is működnek? Vagy mennyire menjek mélyen bele a dolgokba?

Vagy tényleg fullosan építsem fel magamban ismét az egészet marha sok ismétléssel, hogy "mértéktér", "mérhető függvények", "radon-nykodim derivált" stb stb stb?


A tanulási hajlandóság megvan, viszont *felesleges dolgokra nem szeretném pazarolni az időmet.


*felesleges: Igazából nem az, a tanulás jó és jó ötleteket adhat bármilyen ismeret, viszont most az első számú cél, hogy el tudjak majd helyezkedni és ehhez kellene kiindulni valahonnan.


2023. jan. 25. 20:22
1 2
 1/17 anonim ***** válasza:
45%

Kezdetnek olvasd el Andrij Burkov The Hundred-page Machine Learning Book c. kis könyvecskéjét.


Utána ess neki Wes McKinney (a Pandas könyvtár szerzője) könyvének:

Könyv: [link]

Jupyter Notebookok: [link]


Közben vagy utána kezdj el Jose Portilla kurzusokat a Udemy-n… mindegy melyikkel kezded, nagyon-nagyon jó az összes. (Tudod várnod kell egy pár napig, amíg €10.- lesz egy kurzus.) Kezdd a Machine Learning kurzusával például.


Közben pedig kezdd el olvasni az alapkönyvet, az ISLR-t.

Könyv: [link]

Videó: [link]

Jupyter Notebookok: [link]


Nagyon jó bevezető kurzus még Andrew Ng Machine Learning kurzusa a Courserán: [link]


Kezdetnek talán ennyi.

2023. jan. 25. 21:01
Hasznos számodra ez a válasz?
 2/17 anonim ***** válasza:
67%

"A legnagyobb problémát az jelenti, hogy nem tudom hova koncentráljam az tanulásra szánt időmet. Foglalkozzam adatbázisokkal, SQL-el vagy inkább Pythonozzak többet? Esetleg konkrét technológiáknak nézzek utána?


Illetve matematikából sokat felejtettem, vissza szeretném hozni magam egy erősebb szintre, viszont azt sem igazán tudom belőni, hogy mennyire menjek mélyre. (Hiszen ugye az is idő és igazából végtelen mélységei vannak).


Elégedjem meg a statisztikai módszerek átnyálazásával és kb értsem, hogy hogyan is működnek? Vagy mennyire menjek mélyen bele a dolgokba?


Vagy tényleg fullosan építsem fel magamban ismét az egészet marha sok ismétléssel, hogy "mértéktér", "mérhető függvények", "radon-nykodim derivált" stb stb stb? "


Azt kellene megérteni, hogy 4-5 különböző szakmáról beszélsz (data analyst, data engineer, data scientist, ml engineer, algoritmusfejlesztő). Nem, a data science nem szinonimája a gépi tanulásnak. Ennek illene jobban utána jarni, mert ettől függően lehet értelmesen beszélgetni a technokógiákról.


Ennyi lovat nem fogsz megülni egy seggel, el kellene dönteni, hogy mivel akarsz pontosan foglalkozni.


Ha gépi tanulással, akkor egyértelműen c++ és python tudás az elvárt, az sql-es résszel az adatéletút korai fázisában foglalkoznak.



Csinálj saját projektet, ha nem tudod, mi legyél, egészen az adatgyűjtéstől és feldolgozástól kezdve a modell implementálásáig, tanításáig és alkalmazásáig. Például webscraping és tartalomelemzés. Ha kifejezetten a ml érdekel, akkor keress egy feldolgozott előkészített adathalmazt (ld. kaggle) és fejlessz hozzá neurális hálót. Nem egyszerű tanulóalgoritmusokat (random forest, knn, svm), hanem ténylegesen neurális hálót (rnn, cnn például). Tele a net is projekt ötletekkel.


Vannak adatbázisok képekkel például kaggle-ön, tudsz csinálni kresz táblákat, érzelmeket, növénybetegségeket stb azonosító alkalmazásokat. Vagy beszédfelismerésre alkalmas alkalmazást. Vagy valami hasonlót, ami érdekel.


Alapvetően azzal tanulsz a legtöbbet, ha csinálod, közben pedig göngyölöd szépen mellé az elméleti részt is.

2023. jan. 26. 00:50
Hasznos számodra ez a válasz?
 3/17 anonim ***** válasza:
100%

#2


+1 kaggle. Ha bármilyen ilyen irány érdekel, akkor az az oldal a legjobb barátod, feleséged és szeretőd is lesz egy személyben.


Nem tudom mennyire van erős python tudásod, de pandas és numpy kézség szintű ismerete eléggé elvárt. Nyílván nem kell mindent is ismerned, de a legfontosabb metódusokat tényleg kézség szintsn kell álmodból felkeltve is használni tudni.


Statisztika annyira nem kell erősen. Vagy hát többváltozós kalkulusból, valszámból és linalgból jóval több ismeret kell, mint statból. #1 le lett pontozva, de a könyvek nem rossz irány. Azaz én egyet ajánlanék csak, mert neked erős háttered van, ez pedig a "mathematics for machine learning" lenne. Ez alapján tudni fogod, hogy mit kell ismételni vagy újra megtanulni, mert tényleg minden is benne van. Matek bsc nélkül szerintem borzasztó könyv, de aki matek bsc-t csinált annak egy isteni áldás:D de egyébként a review-ok is jók, checkold nyugodtan:)


Saját project itt annyira nem fontos, mint a fejlesztőknél. Legalábbis nekem elég mély szakmai interjúk voltak inkább. Saját projectem nem nagyon volt, nyílván linkeltem githubom, de ott a millió gyakorló project volt csak, de azokat mások munkái alapján csináltam vagy később javítottam mások munkája alapján. De nem felvételiztetek, fogalmam sincs mennyire lényeges-e, én 4 éve nem váltottam helyet, mert szeretek itt lenni nagyon.

2023. jan. 26. 05:19
Hasznos számodra ez a válasz?
 4/17 anonim ***** válasza:
67%
Az 1-est választ nem tudom, miért pontoztátok le… a kérdező tanácstalan volt, mit csináljon, és kapott egy nagyon jó tanácsot.
2023. jan. 26. 08:40
Hasznos számodra ez a válasz?
 5/17 anonim ***** válasza:
30%
Szerintem ebben a szakmában nem jó tanács több száz oldalas könyveket nyálazni anélkül, hogy tudnád, mit akarsz csinálni.
2023. jan. 26. 09:13
Hasznos számodra ez a válasz?
 6/17 anonim ***** válasza:
66%

Pont ezért javasoltam elsősorban konkrét videókat, jupyter notebookot, mellette 2-3 fontos könyvet. :)


Na de nekem mindegy, én csak leírtam, hogy ha én újrakezdeném, hogy csinálnám. A szakmában közmegegyezés, hogy az ISLR könyvvel kell kezdeni, gondoltam szólok. :)

2023. jan. 26. 10:00
Hasznos számodra ez a válasz?
 7/17 anonim ***** válasza:
23%
Az, hogy neked mi a véleményed, nem közmegegyezés, ha pedig az vagy, akinek tippellek, rendszeresen adsz a szakmával kapcsolatban haszontalan, félrevezető válaszokat általános igazságnak beállítva (most is).
2023. jan. 26. 10:06
Hasznos számodra ez a válasz?
 8/17 anonim ***** válasza:
66%

Nem tudom kinek tippelsz, és nem adok soha haszontalan vagy félrevezető tanácsokat senkinek. Az 1-es válasz sem haszontalan vagy félrevezető, hanem egy lehetséges út arra, hogy a kérdező eligazodjon.


Az ISLR könyv olyan szinten közmegegyezés tárgya, hogy csak az vitatja, aki nincs képben. Az összes normális egyetemi data science curriculum ezzel kezdődik, és a profi data scientistek nagyon nagy többségének ez az ajánlása a nemzetközi fórumokon. Nem véletlenül. A könyv a gépi tanulás egyik legfontosabb alapkönyve, nagyon jól van megírva, és nehéz ennél jobb kezdő könyvet találni.

2023. jan. 26. 11:00
Hasznos számodra ez a válasz?
 9/17 anonim ***** válasza:
65%

"A szakmában közmegegyezés, hogy az ISLR könyvvel kell kezdeni, gondoltam szólok."


Őszinte leszek, nem is hallottam ennek a könyvnek a létezéséről sem pedig 5 éve dolgozok egy multinál cloud környezetben ML modellek fejlesztésével (előtte 8 évig voltam backend dev)...


Másrészt az ilyen kurzusok nézegetése helyett szerintem sokkal célszerűbb egy való életből vett példát meríteni. Nagyon szépen meg lehet tanulni a kurzusokból a klasszifikációt, lineáris regressziót, ML modelleket stb.. gyönyörűen letisztított adatsorra ahol 1 perc után látványos eredmények születnek és azt hiszi a tanuló, hogy hú de ügyes és mennyi mindent tud aztán bekerül egy valódi éles környezetbe ahová ömlenek be a standardizálatlan adatok amire ha futtatod a modelledet rácsodálkozol hogy jéé semmi kapcsolat nincs benne. Egy Data Scientistben az a nagyobb érték hogy van akkora domain specifikus tudása hogy képes az adatokat úgy transzformálni hogy ha arra ráereszt egy statisztikai/ML modelt akkor tényleg kap valami kézzel fogható eredményt és az eredményt képes is kiértékelni (le tudja elemezni hogy az a grafikon amit kiplottolt vajon niért úgy néz ki ahogy, mi okozza stb...).


Szóval szerintem ahelyett hogy "újra megtanulod / feleleveníted" az egyetemen oktatott többváltozós parciális differenciálegyenletek megoldhatóságának bizonyítását vagy "megtanulsz" 5 programozási nyelvet amiről azt sem tudod mire fogod használni fogj meg és tölts le például egy ingyenesen elérhető klimatológiai adatsort az OMSZ honlapjáról és dolgozd fel hogy milyen évszakos változékonysága van a hőmérséklet menetének. Illesz regressziós görbét például 1960-2020 adatokra, próbáld megbecsülni 2030-ra mekkora lesz a középhőmérséklet stb...


Hiába vagy profi matekból és programozol 10 nyelven ha egy való életben felmerülő problémára nem tudod alkalmazni az ismereteidet. Inkább tudj kevesebb / kevesebb nyelven programozni de azt használd magabiztosan és szerezz belőle tényleges gyakorlatot, majd az évek során kialakul hogy miben kell fejlődni, mi az amit sűrűn kell használni és ezeket megtanulod. Hiába vagy profi elméletből és tanulsz meg mindenféle magasszintű matematikai modellt ha elédvágnak egy adathalmazt hogy ebből ilyen és olyan eredményt szeretnének látni simán elvérzel a gyakorlat hiánya miatt...

2023. jan. 26. 11:12
Hasznos számodra ez a válasz?
 10/17 anonim ***** válasza:
28%

#1 aki #8 te valami szakmaváltó lehetsz aki életében nem dolgozott data scientistként 1 percet sem és azt sem tudod mit csinál egy data scientist pozícióban alkalmazott egyén egy cégnél azért ajánlgatsz random könyveket mert a semmit nem érő gyorstalpaló kurzusokban ez a random könyv van megadva referenciaműnek. biztos jó szándékból és nem szándékosan adsz félrevezető válaszokat de tapasztalatlanul kb. annyit ér a tanácsod mint ha egy olyan ember osztaná az észt vezetésről aki életében nem vezetett autót és nincs is jogsija. a többi válaszolóval egyetértek.


Üdv egy statisztikus PhD végzettségű Senior AI Engineer

2023. jan. 26. 12:21
Hasznos számodra ez a válasz?
1 2

Kapcsolódó kérdések:




Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu

A weboldalon megjelenő anyagok nem minősülnek szerkesztői tartalomnak, előzetes ellenőrzésen nem esnek át, az üzemeltető véleményét nem tükrözik.
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!