Érti ezt valaki?
ftp://ftp.mokk.bme.hu/Language/Hungarian/Freq/Web2.2/web2.2-freq-sorted.top100k.nofreqs.txt
Ez mi? és hogy jön ebből össze bármi is? :D van ötlet?
Annyit értek belőle hogy a BME re jársz és a MOKK megitn hülye.
Amúgy feltehetően az oldal nyelvének átállításához van köze.
Nem ez kell véletlen? Itt vannak más fileok is...
ftp://ftp.mokk.bme.hu/Language/Hungarian/Freq/Web2.2/
de, ez a címből is kiderült
meg:"A web2.2 gyakorisagi szotarbol keszult szoto-szoalak tablazat. A gyakorisagi szotarbol
kiszedtuk azokat a szoalakokat, amiket a hunmorph ismert. A hunmorph elemzesekbol
kinyertuk a szotovet. Ezutan kiforditottuk a tablazatot.
Most megadja, hogy egy szo milyen alakjaival fordul elo a webkorpuszban. Fontos: nem minden
lehetseges alakot adja meg, az feleslegesen sok lenne.
Ezzel a tablazattal (aki tud hash tablat hasznalni) barki csinalhat olyan szolgaltatast,
mint a kutat.hu, bar nem hisszuk, hogy sokkal jobb lesz tole.
161159 kulonbozo szotot tartalmaz.
Igy keszult:
cat web2.2-freq-sorted-analyzed.txt | cut -f1,6,7- | grep -v "0$" | sed "s/\/[^ +]*//g" | sed "s/\+//g" | cut -f1,3- | grep -v "[0-9]" | awk 'BEGIN{FS="\t"}{for (i=2; i<=NF; i++) {t[$i,"\t",$1] = "1" }} END{ for (l in t) print l}' | awk 'BEGIN{FS="\t"} {v=lex[$1]; lex[$1]=v "\t" $2} END{for (w in lex) {print w "\t" lex[w]}}' | sort > /tmp/suffixed.txt
A szolistat a CC 2.5 Nevezd-meg! licenc szerint barki hasznalhatja, de kerjuk jelolje meg a forrast."
de nem értem hogy hogy rakódott ez így össze?
A könyv:
Linux felhasználói ismeretek 2.
Ez segít megfejteni a script kódját.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!