Kezdőoldal » Számítástechnika » Programozás » Sok szamadat (billiardos...

Sok szamadat (billiardos nagysagrendu) bonyolult muveleteinek elvegzesere milyen programozasi nyelv a celszeru? Milyen fajlban celszeru tarolni az adatokat linuxon?

Figyelt kérdés
Interakcio nincsen, csupan kezdeti parameterek megadasa a program futasa elott.
2020. febr. 17. 11:48
1 2
 11/16 anonim ***** válasza:
32%
A billiárdos nagyságrendű azt jelenti, hogy a számok amikkel dolgozol billiárdos nagyságrendűek, vagy a rekordok száma az? Mert ha az utóbbi akkor határozottan megéri optimalizálni, mondjuk C és a ciklusmagot meg assemblyben. (BÁr ha tényleg csak alapműveletek sorozata, akkor lehet a C fordító is elég optimális kódot készít.)
2020. febr. 17. 18:57
Hasznos számodra ez a válasz?
 12/16 A kérdező kommentje:
tenyleg nem fogalmaztam egyertelmuen, a rekordok szama annyi, nem az ertekek. Informatikai ertelemben az ertekek nagysagrendje nem is jelent semmit, ha nem mondok hozza pontossagot.
2020. febr. 17. 21:57
 13/16 anonim ***** válasza:

Akkor rekordokról beszélünk? A számítás folyamán biztosan muszáj tárolni minden részeredményt? Mi a művelet eredménye, mármint a célja? Még mindig túlságosan homályban tartod a feladatot, így nehéz lesz jó választ adni.

Ha rekordokat akarsz tárolni, akkor pl. a MySql alapból 2^32 rekordot tud tárolni, vagy 2^64-re feltornászható megfelelő fordítási paraméterekkel. (Billiárd: 10^15, ~ 2^50) De egyáltalán nem biztos, hogy neked ez kell.

2020. febr. 18. 09:44
Hasznos számodra ez a válasz?
 14/16 anonim ***** válasza:
100%

"Informatikai ertelemben az ertekek nagysagrendje nem is jelent semmit, ha nem mondok hozza pontossagot."

Dehogynem, a nagyságrend az nagyságrend. Még a lebegőpontos értékeknek is van konkrét nagyságrendjük, pontosságtól függetlenül.

2020. febr. 20. 08:40
Hasznos számodra ez a válasz?
 15/16 anonim ***** válasza:
51%

"Milyen fájlban célszerű tárolni?"

Általános adatbázisban semmiképp, tekintve, hogy még 1 byte/rekorddal számolva is petabyteos nagysagrendu adatrol beszélünk. Jó lenne tudni, hogy milyen számokról beszélünk, pl van-e gyakran sok ismetledo vagy kb véletlenszerűek.

Előbbi esetben lehet optimalizálni. Utóbbi esetben valószínűleg nem sokat tudsz ahhoz képest nyerni, mint ha csak simán kiirnad a számokat egy bináris fájlba.


Egyébként gondolom nem sima otthoni vasrol van szó, hisz még a legnagyobb hdd méretekkel is 100-as nagysagrendu diskre van szukseg.

2020. febr. 21. 13:03
Hasznos számodra ez a válasz?
 16/16 anonim ***** válasza:

Eléggé attól függ, hogy mit akarsz csinálni azokkal a számokkal. Lesz-e még valami a számokon kívül (pl táblázat)? Én itt a C-t, assemblyt nem erőltetném, vannak jól bejáratott rendszerek ekkora adatszettel történő műveletekre. Érdemes megnézni, hogy a spark (és a parquet formátum) megfelel-e a use case-nek.


De lehet, hogy egyszerűbb megoldás is működhet: az egyik 10^11-es méretű adatszettünket hdf5 file rendszerben tároljuk és python simán elboldogul vele a pytables segítségével. De itt nincs "bonyolult muvelet", csak filterelünk. Viszont egy másik rendszerünknél, ami kb. 10^13 rekordból áll, spark-ot használunk és az adatokat parquet formátumban tároljuk. Aggregációk, statisztikai számítások párhuzamosítva ésszerű időben lefutnak. Most kísérletezünk a clickhouse bevezetésével, ami nagyon ígéretesnek tűnik. De fontos különbség, hogy mi mindig táblázatokkal dolgozunk.


Sokminden múlik a te aktuális céljaidon, de az szinte biztos, hogy a C/C++/Assembly/MySQL nem jó út.

2020. febr. 28. 02:33
Hasznos számodra ez a válasz?
1 2

Kapcsolódó kérdések:




Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu

A weboldalon megjelenő anyagok nem minősülnek szerkesztői tartalomnak, előzetes ellenőrzésen nem esnek át, az üzemeltető véleményét nem tükrözik.
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!