DNS mintákat elektronikusan (is) tárolják?
Laikusként érdekelne, hogy egy DNS-vizsgálat (emberi) során a minták teljes bázispár-készletét feltérképezik, vagy célirányosan vizsgálnak meg bizonyos részeket a genomból. A mitokondriumnál tudom, hogy az egészet nézik (azt hiszem tízezres nagyságrendű a bázispárok száma), de a kromoszómáknál már 3 milliárd körül vannak, de még az is elfér a leggagyibb pendrive-on, mert csak 4-es számrendszerből (ATCG) kell átkódolni basicbe, úgyhogy, ha végig is pörgetik az összes bázispárt, akkor nem az adatok tárolása és elemzése lesz a kihívás a dologban.
Légyszi olyanok írjanak, akik jobban értenek hozzá, mint én, vagy dolgoztak ilyen területen! Köszönöm.
" minták teljes bázispár-készletét feltérképezik, vagy célirányosan vizsgálnak meg bizonyos részeket a genomból."
Van ilyen is, olyan is. Amikor célirányosan néznek variánsokat, azaz meghatározott genotípust vizsgálnak, akkor genotipizálást végeznek (genotyping), de az is lehet, hogy a teljes genom minden bázisát leolvassák ezt teljese genom szekvenálásnak nevezik (whole genome sequencing). Persze ezt is lehet célirányosan végezni pl. csak fehérjekódoló régiók szekvenálását exom szekvenálásnak (exome sequencing) mondják.
Nyilván a teljes A szekvenálás során generódik a legnagyobb adatmennyiséget. Úgyhogy maradjunk is ennél. A szekvenálás során nem ez a durván 3.5 milliárd bázis információját köpi ki a gép, hanem ennél sokkal többet. Minden bázist többször (4-10-30x) elolvasnak, és minden egyes olvasás minden egyes bázisa kap egy mérőszámot, ami megmutatja, hogy mennyire megbízható az a bázis. Továbbá sok egyéb apróság is tárolva van az adatok között későbbi minőségellenőrzés céljából. Ezután ezeket a rövid szakaszokat (read-ek) indexelni, majd illeszteni kell a referencia genomra. Ezután jön a megszekvenált genomban lévő variánsok "hívása" (variant calling). Ebből leggyakrabban egy vcf (variant call format) nevű file-t gyártanak, amit könnyű kezelni és a mérete sem olyan nagy. Ez a file tulajdonképpen azt mutatja meg, hogy hol különbözik a genom a referenciától.
Továbbá szükség lehet arra, hogy megtudjuk, hogy az egyes változatokat anyai vagy apai ágról kaptuk-e (phasing), ezt hozzá lehet tenni a vcf file-hoz és csak kis mértékben növeli a méretét.
Amikor az intézetünkben genomszekvenálással foglalkoztunk 3000 ember szekvenálása 500TB adatgenerálással járt. Ennek túlnyomó többsége a read-ek és az illesztések különböző verzióit jelentette. A végső vcf file-ok 3000 ember genotípusával márcsak 250GB volt.
Az adatfeldolgozás nagyon processor és memória igényes folyamat sima asztali géppel nem nagyon van értelmes nekiállni. Az előbb említett projectnél a cluster minden node-ján 125GB RAM volt pl. Mondjuk amikor sok ember genomját nézzük egyszerre akkor az illesztések és a variánsok hívásánál nemcsak az egyszem genomot nézzük, hanem azt is, hogy a többi minta hogy néz ki az adott pozícióban. Szóval ez a folyamat nagyon erőforrás igényes, de nagyon jól automatizálható és konténerekből teljes pipeline-ok letölthetők.
A soron következő vizsgálatok (amivel a tudományos kérdésekre adsz választ) többnyire nem olyan nagy igényűek, cserébe jóval nagyobb, nem automatizálható szakértelmet igényelnek.
pocok_134, nagyon szépen köszönöm a választ és örülök, hogy olyan írt, aki tényleg benfentes :)
Már csak az érdekelne, hogy az alábbi két mondatodnál digitális, vagy kémiai folyamatokra gondoljak, esetleg is-is?
"Ezután ezeket a rövid szakaszokat (read-ek) indexelni, majd illeszteni kell a referencia genomra. Ezután jön a megszekvenált genomban lévő variánsok "hívása" (variant calling)."
"Már csak az érdekelne, hogy az alábbi két mondatodnál digitális, vagy kémiai folyamatokra gondoljak, esetleg is-is?"
A DNS szekvenálás során a legelső lépése egy kémiai reakció, ami kzvetve fényfelvillanást okoz. Ezt a jelet a szekvenáló berendezés érzékeli és digitálsi jellé alakítja, innentől minden lépés digitálisan zajlik.
"Egyébként biológia szakos vagyok (Bsc), de így a DNS vizsgálatok gyakorlati részéhez nem konyítok."
Mindenki elkezdi valahol. :D
pocok_134: nem feltétlenül történik "villanás". Ez csak akkor van, ha olyan típusú szekvenálásról van szó, ahol a bázisokhoz kötött, polimerizació során lehasadó fluorofór adja a jelet (pl. PacBio szekvenálások).
Pl. nanoporusos szekvenálás esetén a jel az adott nukleotidra jellemző aramerosseg változás, amit detektál egy chip, amit aztán a számítógép dolgoz fel (base calling stb.).
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!