Milyen Business intelligence-n / Data analytics - en dolgozni?
Egyetemista vagyok egy külföldi egyetem !közgázkarán! (nem STEM), és mesterképzésre egy Business analytics jellegű programot választanék (Business Intelligence) tehát basic data science-t tanítanak (python/machine learning/R/scala/SQL/Tableau). Aki ezen a területen dolgozik, tudna mesélni milyen? Unalmas/ Izgalmas? mennyire adminisztratív vagy alkotó jellegű? Hogy telik a munkája? ( Mmint kicsit utánanéztem szóval vágom hogy adatotgyűjt/tisztít/bányász/modellez/levontanulságot/vizualizál/riportot-dashboardot ír), csak ez így elég monotonon/unalmasan hangzik.
;)
"Aki ezen a területen dolgozik, tudna mesélni milyen?"
Én data science területén dolgozom, de nem business hanem STEM. Ez is érdekel? Személy szerint nagyon szeretem, izgalmas. De nagyon sok függ a projecttől, az intézetünkben egy csomó projectet nagyon unalmasnak tartok, bár az enyémet is is sokan annak tartják. :D
A munkahelyemen egy csomó bioinformatikai csoport működik, sok közülük kutatást végez, míg mások adatbázisokat fejlesztenek a kutatói közösség számára. A mi csoportunk ezeket és más ingyenesen hozzáférhető adataszetteket integrál, hogy új lehetséges gyógyszer célpontokat találjon. Az eredmény tulajdonképpen egy data-product, amit ingyenesen bocsátunk a tudományos közösség és a gyógyszeripar rendelkezésére. Nagyjából ez a project.
A data team végzi az adatok beszerzésést, integrálását, ellenőrzését, javításást. Többnyire R, Python kódokat írunk, többnyire notebook-ok formájában. Ha egy prototípus nagyjából kész, akkor a backend team átveszi a kódot, és szükség esetén átírják SCALA nyelvre. Bár mostanában intenzívebb feladatokra a data team is pyspark-ot használ, azt nem kell nagyon átírni.
Évente 5x van új release, ilyenkor a teljes adatszett újra generálódik, ilyenkor intenzíven megy a quality control: a kb. 20-25 féle inputot ellenőrizzük, hogy megfelelnek-e az elvárt sémának, az adatpontok száma nem mutat valami furcsaságot. Erre már vannak automatikus script-ek. Ezen kívül vannak beépített ellenőrzési pontok a pipeline-ban, de mielőtt az adat és a szoftver publikus lesz, manuálisan is meg kell róla győződni, hogy bizonyos kritikus elemek jól néznek ki. A fenti lépések tulajdonképpen rutin feladatok, nem vesznek túl sok időt igénybe, de rendszeresen el kell őket végezni.
Ezeken kívül vannak kisebb/nagyobb projectek, amik több release cikluson keresztül futnak. Az elmúlt hónapokban azon dolgoztunk, hogy a publikusan elérhető COVID19 (és más koronavírus) specifikus adatokat integráljuk és próbáljunk új terápiás célpontokat találni. Ez azért volt nehéz, mert az eddigi infrastruktúra nem teszi lehetővé, hogy figyelembe vegyünk nem humán géneket-fehérjéket, illetve hoszt-patogén interakciókat. Ez a project lezárult, most azon dolgozom, hogy fehérjeinterakciós hálózatokat integráljak a modelbe: egy adott fehérje/gén nagyobb valószínűséggel lesz jó gyógyszer célpont, ha beágyazott egy terápiás szempontból lényeges anyagcsere/jelátviteli hálózatba, illetve, ha egy amúgy ígéretes fehérje valami miatt nem alkalmas célpontnak, a vele kapcsolatban lévő fehérjék potenciálisan alkalmas jelöltek lehetnek. De van olyan is, aki orvosbiológiai publikációkat elemez gépi tanulással, van aki genetikai variánsok hatását próbálja előre jelezni gépi tanulással... eléggé diverz a csoport. Ha egy-egy ilyen project megfelelően zárul, akkor publikáljuk is az eredményeket-módszereket. Természetesen minden adat-kód-dokumentáció publikus, mindent nyitott google cloud-on és githubon tárolunk.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!