Hogyan mükdik egy beszédfelismerő szoftver?
"Hogyan mükdik egy beszédfelismerõ szoftver?"
Több különböző megoldás lehet, de főleg neurális hálózatokat vagy még inkább rejtett Markov-modelleket használnak a hangok szöveggel való megfeleltetésére.
Nagyon leegyszerűsítve az egész úgy működik, hogy először a hangból kiszűrik az emberi beszédre jellemző hangsávot, ezt analizálják, majd pl statisztikai módszerekkel megpróbálják illeszteni ismert szavakra, kifejezésekre. Persze ez messze nem ilyen "egyszerű", mert nem számol a hibákkal. Mind a rögzített hang, mind a beszéd tartalmazhat hibákat, nem beszélve az akcentusról, tájszólásról, illetve az ismeretlen, vagy akár idegen nyelvű szavakról.
"jelenleg a google a legjobb"
Szerintem ezt nem lehet így kijelenteni, mivel a fentiekből adódóan a beszédfelismerés erősen nyelv- és környezetfüggő. Egy általános célú (pl diktálásra szolgáló) beszédfelismerő rendszert sokkal nehezebb megvalósítani, mint pl egy kötött szótárasat.
Ha komolyabban érdekel a téma, tudom ajánlani "A magyar beszéd" című könyvet, alaposan körüljárja a kérdéseket.
Amit én ismertem beszédfelismerő, frekvencia tartományra transzformálta a hangot. Ott volt egy sávszűrés, hogy az emberi beszéd frekvenciái maradjanak, majd egy pitch eltávolítás, zajszűrés gyanánt.
Ahogy a kolléga is mondja, a szavak elválasztása talán az egész folyamat legnehezebb része. Mivel semmilyen támpont nincs arra vonatkozóan, hogy hol kezdődik és hol ér véget egy szó a folytonos beszédben. Ezt úgy küszöbölik ki, hogy elemi hangokra - fonémákra, bontják a teljes hangot, majd ezek karakterisztikájának elemzésével adnak egy becslést a szavakra. Ahogy írták a rejtet Markov modellek és a neurális hálók tipikusan jók erre a célra. A gond, az hogy feltanított háló vagy modell nem mindig ad stabil eredményt még ugyan arra az emberre sem. Idegen nyelvekre, akcentusokra pedig különösen érzékenyek ezek a megoldások...
és miért nem lehet betünként elemezni?
ha azt mondom h. "miért nem?" akkor ez kiejtve miértnem? most ha betünként elemezné akkor az egyetlen értelmes mondat a miért nem? lenne mivel a mi ért nem? ez 3 értelmes szó de a mondat értelmetlen lenne.... jó mondjuk ha szavakat akar diktálni akkor meg helyes...nehez ez...
Ott a kulcsszo!
"az egyetlen ertelmes mondat"
Tehat a szovegfelismeronek el kell tudnia valahogy donteni, hogy melyik ertelmes mondatok rakhatoak ki az adott bemenetbol. Ugy, hogy meg azt sem tudja, hogy hogyan kell szavakra bontani, mivel pont a szavakra bontashoz kell tudni, hogy az adott szavakbol milyen ertelmes mondatok rakhatoak ki.
Es persze mindezt ugy, hogy
1) nem tarthat elore kiszamolt adatbazist az ertelmes mondatokrol, mivel vegtelen sok van. Tehat nem lehet mondjuk hash-tablat epiteni a bemeneti stringekre
2) a bemenetben hiba is lehet
3) zaj is kerulhet a bemenetbe
4) az is lehet, hogy nem ertelmes mondadot szeretne diktalni a felhasznalo.
stb.stb.stb.
> és miért nem lehet betűnként elemezni
Mert még mi magyarok sem pontosan betű szerint ejtjük ki a szavakat.
Most gondold el, hogy működne ugyan ez az angoloknál.
Ráadásul a hangfelismerő szoftverek 90% angol nyelvre készül, hiszen ott térül meg minden kutatás. Ezért angol szinte minden élen járó kutatás, mivel ha nincs piac nincs finanszírozás.
A beszélt nyelv legelemibb alkotóelemei a fonémák, azaz beszédhangok. Ezekből lehet csak kikövetkeztetni a mondatokat. Ráadásul a akcentus/tájszólás miatt a nincs egyértelmű kapcsolat a kiejtések és a szavak között. Így a szavak illesztése meglehetősen rugalmas, úgynevezett fuzzy logikát követ, tehát a beszédfelismerés folyamatában több lehetséges "nyertes" mondat is versenyezhet, amíg megfelelő valószínűséggel nem választunk egyet.
A fonémáknál alacsonyabban szinten már a hang spektrumának analízise lehet. De ezt is csak arra használják, hogy pontosítsa a fent említett módszert.
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!