A négybetűs szavak hány százaléka nem jelent egy nyelven se semmit?
A vicc kedvéért letöltöttem az OpenOffice helyesírás ellenőrző szótárait, és kikaptam belőle a négybetűs szavakat. Összesen 30 537 négyjegyű szót találtam, amiben mind a négy karakter a és z közé esik. (A nagy és kis kezdőbetűvel kezdődő, de kisbetűvel folytatódó szavakat vettem, ezzel a mozaikszavakat – amikből amúgy 2342-t találtam – elimináltam.)
Így azt találtam, hogy a négybetűs szavak 6,682%-a értelmes valamilyen nyelven.
Szépséghibák:
- A római számok nincsenek eliminálva (pl. xvii), illetve kérdés, hogy eliminálható-e teljesen. De ez apró hiba.
- Több nyelven nincsenek benne ragozott alakok, pl. magyarul az ebek (kutyák), sara (az ő sara), vagy pl. angolul a cars (kocsik), tied (összekötött), stb… Hogy ez mekkora hiba, nem tudom. Pl. hárombetűs szóból 9763 van, viszont hogy ezek közül hány ragozhatók egykarakteres toldalékkal, azt nehéz felmérnem.
- Hogy hiba-e vagy sem, mindenesetre van benne rengeteg tulajdonnév.
~ ~ ~
#19: > Induljunk ki onnan, hogy mi a kérdező célja ennek az adatnak az ismeretével s mit jelent számára ennek az adatnak a tudása.
Számomra nem derült ki, hogy mi a kérdező célja, de sejtésem szerint különösebb célja nincs a puszta kíváncsiságnál.
> Mivelhogy ha IPA átírást használva vizsgálódunk akkor kizárhatjuk az alfabetikus eltérések okozta káoszt.
Ugye az IPA esetén van 28 magánhangzó, 63 mássalhangzó. Ez így már 68,6 millió lehetséges kombináció. Eleve a csupa magán- vagy mássalhangzókból álló szavak közül – amik a kombinációk 23,9%-át teszik ki – alig akadna értelmes. Sejtésem szerint egy csomó olyan betűpár van, ami nem szerepel egy nyelvben. Meg van egy csomó betűpár, ami ugyan szerepel egy nyelvben, de a legritkább esetben egymás után.
Fogadni ugyan nem mernék rá, de van olyan kétségem, hogy bár az IPA behozna jó pár nyelvet pluszban, de mivel a karakterkészlet is nagyobb, így lehet, hogy még kevesebb lenne az értelmes szavak aránya.
Ezzel a kérdéssel 8 éves koromban foglalkoztam. Az apropója a gyúnya (csúnya, pejoratív) szavak létezése nagyon izgalmas volt, hogy amikor kimondok egy ilyen szót, mindig figyelnek a felnőttek.
Kilenc évesen kezdtem el kutatni különböző nyelvek csúnya szavait. Amikor libidóm kifejlődött 12 évesen, tudni akartam a világ összes nyelvén a "csúnyája" pejoratív... viszont a legtöbb esetben a visszafordítás során : nyílás,üreg,heg,vágás... jött a *p* ina szóra. Csalódott lettem, hogy nem vagyok a tudás birtokában.
Tizévesen több szótár társaságában az egész nyáriszünetet a kutatásaimra fordítottam, azzal ámítva magamat, hogy különlegesebb vagyok a kint focizó társaimnál, mert japánul tudok káromkodni.
13 évesen komolyabban vettem a kutatásaimat, melyről jegyzőkönyvet vezettem. Arra kerestem a választ, hogy miért nem alakult ki egy gyakran használt szó egY másik nyelvben, ami butálisan csúnya szó. Mondjuk egy kötőszónk,hogy egy másik nyelvben a férfi nemi szerv pejoratív kifejezése.
A kutatásomra az i re egy felnőtt ember tett pontott. A magyarázatának lényege az volt, hogy hiába találnék ilyen egyezést, az nem azt jelenti azon a nyelven.
A nyár végén rágódtam, ha igazat adok neki, akkor a kutatásaim időpocséklás volt. Végül lezártam a kutatást és kimentem a többiekkel focizni.
A kérdésedre tudom a választ. 10 éves voltam, amikor tökéletesen* megtanultam egyedül angolul (olvasás és értés, a beszélt nyelvet nem értettem)
Sok szótárt és nyelvkönyvet kaptam a rokonoktól, amikor elkezdett jojózni az agyam az a Wales nyelv volt, nem tudtam mi azt hittem ez valami bennszülött nyelv lehet, mivel a betűk sorrendje különleges rendezésben vannak, a Filippínó nyelvé még különlegesebb.
Szóval a mesterszám, amit keresel 11,2%
#21 És hány nyelven nézted meg, hogy van-e értelme a szavaknak? Remélem nem csak magyarul és angolul.
Mert ha egy helyesírás ellenőrző szótárból szedted ki őket akkor nem csak 6% kéne értelmes legyen, hanem az ott talált szavak 100%-a (hogy ha csak a helyes formák voltak benne).
Az IPA pedig tényleg leegyszerűsíti a számítást. Mivel ha figyelembe vesszük hány olyan nyelv van ami nem az angol ábécé-t használja akkor IPA-val könnyebb egységes szavakat létrehozni a különböző abécé-k keveredése nélkül. És ez a szótagíró nyelvek problémáját is orvosolja.
"Fogadni ugyan nem mernék rá, de van olyan kétségem, hogy bár az IPA behozna jó pár nyelvet pluszban, de mivel a karakterkészlet is nagyobb, így lehet, hogy még kevesebb lenne az értelmes szavak aránya."
Mivel a kérdésből egyértelmű, hogy minden létező és beszélt nyelvre gondol a kérdező, nem csak a divatosabb európai latin betűs nyelvekre, így pont kapóra jön ha sok másik nyelvet is behoz.
Mivel a nagyobb karakterkészlet kifejezetten adott hangokat jelöl így nem lenne sokkal nagyobb a szavak száma mint latin betűvel.
Sőt így még ki is zárjuk az azonos hangzású, de máshogy írt szavakat.
> #21 És hány nyelven nézted meg, hogy van-e értelme a szavaknak? Remélem nem csak magyarul és angolul.
(Rosszul írtam, nem az OpenOffice, hanem a LibreOffice szótárait használtam.)
A latin betűs nyelvek listája: afrikaans, aragóniai, breton, bosnyák, katalán, cseh, dán, német, angol (brit, amerikai, kanadai, ausztrál, dél-afrikai), eszperantó, spanyol (argentin, bolíviai, chilei, kolumbiai, costa ricai, dominikai, ecuadori, spanyolországi, guatemalai, hondurasi, mexikói, nicaraguai, panamai, perui, puerto ricoi, paraguayi, el salvadori, amerikai, uruguayi, venezuelai), észt, francia, skót gael, guarani, horvát, magyar, indonéz, izlandi, olasz, kurd, litván, lett, holland/flamand, norvég, okszitán, lengyel, portugál (brazil, portugáliai), román, szlovák, szlovén, albán, szerb (latin betűs), svéd, szuahéli, török, (vietnámi)
(A nem latin betűs nyelvek listája: arab, belarusz, bolgár, bengáli, tibeti, görög, gudzsaráti, héber, hindi, koreai, laoszi, mongol, nepáli, orosz, szingaléz, szerb (cirill betűs), telugu, thai, ukrán. Nyilván ebben nem talált az angol ábécé betűíből álló négybetűs szót.)
Nyilván ez nem tartalmazza az összes nyelvet és nyelvjárást, de ha a kérdező #16-os pontosítását nézzük, akkor ez eléggé a kérdést közelíti meg. Ahogy írtam a ragozott, illetve esetleges összetett szavak azok, amiket nem tartalmazza. Illetve még egy szépséghiba, pár nyelv – talán 6–7 nyelvről van szó – esetén a szótár annyira speciális formában van, ami miatt az feldolgozatlan maradt. De ezeknek is a jelentős része valószínű átfedésben van más, hasonló nyelvekben megtalált négybetűs szavakkal.
~ ~ ~
> Mert ha egy helyesírás ellenőrző szótárból szedted ki őket akkor nem csak 6% kéne értelmes legyen, hanem az ott talált szavak 100%-a (hogy ha csak a helyes formák voltak benne).
Őőőő… Miért is? Én fogtam, rákerestem a szótárak szavaiból azokra, amik négy karakterből állnak, és az angol ábécé betűit tartalmazzák. Ezekből – ismétlődés nélkül – 30 537-et találtam. Az angol ábécé betűiből viszont 26⁴=456 976 különböző négykarakteres szó állítható össze. Nyilván a „qwqx” egyik nyelv szótárában sem lesz benne. És nem tudok olyan nyelvről, amiben ez a négykarakteres „szó” értelmes lenne, a Google is 19 400 találatot ad a qwqx-re, a találatok meg szemmel láthatóan nem értelmes szavak, hanem javarészt random stringből származó karakterláncok, pl. szériaszámok és hasonlók.
~ ~ ~
> Az IPA pedig tényleg leegyszerűsíti a számítást.
Az is egy érdekes kérdés, most függetlenül attól, hogy úgy tűnik, a kérdező inkább az írást, mint a beszédet tette a kérdése fókuszába. Az IPA is felvet néhány kérdést. Pl. vannak olyan fonémák, amiknek nincs önálló jele, csak két jellel írhatók le. Mint pl. a magyar „c” hang: t͡s. Ezekkel mi legyen? Ezek egy, vagy két betűnek számítanak a kérdés szempontjából? Kérdés, hogy mi a helyzet a mellékjelekkel? A különböző mellékjelekkel ellátott szimbólumok különböző, vagy azonos betűnek minősülnek-e? Mert adott nyelven ennek lehet kiemelt jelentősége. Az IPA ilyen-olyan kiegészítéseit, bővítményeit illetve változatait is kérdés tárgyává tehetjük.
> Mivel a kérdésből egyértelmű, hogy minden létező és beszélt nyelvre gondol a kérdező
Nekem az nem egyértelmű, hogy beszédről, hangokról van szó, mikor a „betű” szót leírta a kérdező, vagy írásról.
> így pont kapóra jön ha sok másik nyelvet is behoz
Ez kétségtelen. Illetve behozza a tájszavakat (föld vs. főd), illetve a nyelvjárásokat (Szeged vs. Szöged) is.
> Mivel a nagyobb karakterkészlet kifejezetten adott hangokat jelöl így nem lenne sokkal nagyobb a szavak száma mint latin betűvel.
Itt ugye a lehetséges jelkombinációk számát kell nézni. 26 karakterből 26⁴=456 976 különböző kombináció van: aaaa, aaab, aaac, aaad… A kérdés, hogy ezek közül mekkora arányban vannak azok a kombinációk, amik valamilyen nyelven értelmes szavak. Ha az IPA határozza meg a jelkészletet, abból 91 különböző fő szimbólum van, amiből 91⁴=68 574 961 kombináció jön ki.
És akkor vegyünk egy olyan hangot, ami nagyon kevés nyelvben fordul elő. Ha nem lenne ennek a hangnak szimbóluma, akkor 90⁴=65 610 000 kombináció lenne. De így, hogy van, így 2 964 961-val több lehetséges kombináció létezik. Az a pár nyelv, ami tartalmazza ezt a ritka hangot, aligha fog „kitermelni” majd 3 millió értelmes négybetűs szót.
Aztán a hangok egy részére jellemzőbb, hogy szó elején, más része szavak végén fordul elő gyakrabban, így nem megfelelő helyen jóval ritkábban alkotnak értelmes szót.
Vannak hangok, amiket nehéz egymás után kiejteni. A legtöbbször ezek hasonulnak. Nyilván nem csak a magyar nyelvben, hanem más nyelvekben is, hiszen a hasonulásnak anatómiai okai vannak és nem kulturális okai. Pl. a magyar nyelvben létezik a „t” és az „s” (magyarul leírva sz) hang is, de általában ezek így, egymás után „t͡s” (magyarul leírva c) hanggá hasonulnak. Pl. a játszik szót c-vel ejtjük [jaːt͡sik].
Vannak bizonyára olyan hangpárok is, amik együtt kevés, vagy egyetlen nyelvben sem szerepelnek együtt. Aztán vannak olyan hangpárok, amik bár szerepelnek együtt egy adott nyelvben, de a legritkább esetben egy szón belül mindkét hang. Pl. a magyar nyelvben háromféle „h” hang van: h/ç/x. (hat [hɒt], ihlet [ˈiçlɛt], technika [ˈtɛxnikɒ]). De ezek ritkán keverednek egy szón, pláne egy négybetűs szón belül. Így ez a trió kapásból eliminál közel 300 ezer kombinációt. És ez csak egy trió, vagy ha úgy tetszik három hangpár.
Szóval igen, az IPA behozna egy csomó nyelvet, tájszót, nyelvjárást, de az IPA-ből kiindulva 150-szeresére duzzad a kombinációk száma, és meggyőződésem szerint az értelmes kombinációk száma nem nőne ezzel ugyanilyen mértékben. Ha az angol ábécéből indulunk, az angol szótárban 4166 négybetűs szót találtam. Attól, hogy hozzávettünk még három tucat nyelvet, az értelmes szavak száma nem 35-szeresére, hanem csak kicsivel több, mint 7-szeresére növekedett.
És bár most nem találtam valami hatalmas adatbázis, több ezernyi nyelv nagyszótárának IPA átiratával, a fentiek miatt én továbbra is élek a gyanúval, hogy az IPA-ból kiindulva az értelmes hangkombinációk kisebb hányada lesz értelmes szó valamilyen nyelven.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!