Kezdőoldal » Számítástechnika » Programozás » Hogyan mükdik egy beszédfelism...

Hogyan mükdik egy beszédfelismerő szoftver?

Figyelt kérdés
jelenleg a google a legjobb? ha azt mondom neki körte akkor mit csinál a hanggal a szoftver? milyen algoritmusok futnak rajta végig? hogyan tudja mit mondtam? létezik nyílt forráskódú beszédfelismerõ?
2015. jan. 1. 15:19
 1/9 anonim ***** válasza:

> létezik nyílt forráskódú beszédfelismerõ?

[link]


Nekem úgy tűnik, igen, van egy pár.

2015. jan. 1. 15:35
Hasznos számodra ez a válasz?
 2/9 anonim ***** válasza:
100%

"Hogyan mükdik egy beszédfelismerõ szoftver?"

Több különböző megoldás lehet, de főleg neurális hálózatokat vagy még inkább rejtett Markov-modelleket használnak a hangok szöveggel való megfeleltetésére.

Nagyon leegyszerűsítve az egész úgy működik, hogy először a hangból kiszűrik az emberi beszédre jellemző hangsávot, ezt analizálják, majd pl statisztikai módszerekkel megpróbálják illeszteni ismert szavakra, kifejezésekre. Persze ez messze nem ilyen "egyszerű", mert nem számol a hibákkal. Mind a rögzített hang, mind a beszéd tartalmazhat hibákat, nem beszélve az akcentusról, tájszólásról, illetve az ismeretlen, vagy akár idegen nyelvű szavakról.


"jelenleg a google a legjobb"

Szerintem ezt nem lehet így kijelenteni, mivel a fentiekből adódóan a beszédfelismerés erősen nyelv- és környezetfüggő. Egy általános célú (pl diktálásra szolgáló) beszédfelismerő rendszert sokkal nehezebb megvalósítani, mint pl egy kötött szótárasat.


Ha komolyabban érdekel a téma, tudom ajánlani "A magyar beszéd" című könyvet, alaposan körüljárja a kérdéseket.

2015. jan. 1. 16:37
Hasznos számodra ez a válasz?
 3/9 anonim ***** válasza:
100%
A legnehezebb arra rajonni, hogy hol kell elvalasztani a szavakat, mivel beszed kozben nem ejtunk szuneteket a szavak kozt ugy, mint irasban. Nincs elvalaszto szimbolumunk. (Sot, vannak olyan nyelvek, ahol az irott szimbolumokban sincs)
2015. jan. 1. 17:21
Hasznos számodra ez a válasz?
 4/9 A kérdező kommentje:
és az alap szófelismerõ is ann-val müködik?mert a siri csak a jövõben vezetné be az ann-t arra a célra hogy profilozza az user szokásait. de akkor az alap felismerõ is tartalmaz ann-t?
2015. jan. 1. 17:44
 5/9 anonim ***** válasza:
100%

Amit én ismertem beszédfelismerő, frekvencia tartományra transzformálta a hangot. Ott volt egy sávszűrés, hogy az emberi beszéd frekvenciái maradjanak, majd egy pitch eltávolítás, zajszűrés gyanánt.


Ahogy a kolléga is mondja, a szavak elválasztása talán az egész folyamat legnehezebb része. Mivel semmilyen támpont nincs arra vonatkozóan, hogy hol kezdődik és hol ér véget egy szó a folytonos beszédben. Ezt úgy küszöbölik ki, hogy elemi hangokra - fonémákra, bontják a teljes hangot, majd ezek karakterisztikájának elemzésével adnak egy becslést a szavakra. Ahogy írták a rejtet Markov modellek és a neurális hálók tipikusan jók erre a célra. A gond, az hogy feltanított háló vagy modell nem mindig ad stabil eredményt még ugyan arra az emberre sem. Idegen nyelvekre, akcentusokra pedig különösen érzékenyek ezek a megoldások...

2015. jan. 1. 19:17
Hasznos számodra ez a válasz?
 6/9 A kérdező kommentje:

és miért nem lehet betünként elemezni?

ha azt mondom h. "miért nem?" akkor ez kiejtve miértnem? most ha betünként elemezné akkor az egyetlen értelmes mondat a miért nem? lenne mivel a mi ért nem? ez 3 értelmes szó de a mondat értelmetlen lenne.... jó mondjuk ha szavakat akar diktálni akkor meg helyes...nehez ez...

2015. jan. 1. 22:14
 7/9 anonim ***** válasza:
100%

Ott a kulcsszo!


"az egyetlen ertelmes mondat"


Tehat a szovegfelismeronek el kell tudnia valahogy donteni, hogy melyik ertelmes mondatok rakhatoak ki az adott bemenetbol. Ugy, hogy meg azt sem tudja, hogy hogyan kell szavakra bontani, mivel pont a szavakra bontashoz kell tudni, hogy az adott szavakbol milyen ertelmes mondatok rakhatoak ki.

2015. jan. 1. 22:18
Hasznos számodra ez a válasz?
 8/9 anonim ***** válasza:
100%

Es persze mindezt ugy, hogy

1) nem tarthat elore kiszamolt adatbazist az ertelmes mondatokrol, mivel vegtelen sok van. Tehat nem lehet mondjuk hash-tablat epiteni a bemeneti stringekre

2) a bemenetben hiba is lehet

3) zaj is kerulhet a bemenetbe

4) az is lehet, hogy nem ertelmes mondadot szeretne diktalni a felhasznalo.


stb.stb.stb.

2015. jan. 1. 22:24
Hasznos számodra ez a válasz?
 9/9 anonim ***** válasza:
100%

> és miért nem lehet betűnként elemezni

Mert még mi magyarok sem pontosan betű szerint ejtjük ki a szavakat.


Most gondold el, hogy működne ugyan ez az angoloknál.

Ráadásul a hangfelismerő szoftverek 90% angol nyelvre készül, hiszen ott térül meg minden kutatás. Ezért angol szinte minden élen járó kutatás, mivel ha nincs piac nincs finanszírozás.


A beszélt nyelv legelemibb alkotóelemei a fonémák, azaz beszédhangok. Ezekből lehet csak kikövetkeztetni a mondatokat. Ráadásul a akcentus/tájszólás miatt a nincs egyértelmű kapcsolat a kiejtések és a szavak között. Így a szavak illesztése meglehetősen rugalmas, úgynevezett fuzzy logikát követ, tehát a beszédfelismerés folyamatában több lehetséges "nyertes" mondat is versenyezhet, amíg megfelelő valószínűséggel nem választunk egyet.


A fonémáknál alacsonyabban szinten már a hang spektrumának analízise lehet. De ezt is csak arra használják, hogy pontosítsa a fent említett módszert.

2015. jan. 2. 13:19
Hasznos számodra ez a válasz?

Kapcsolódó kérdések:




Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu

A weboldalon megjelenő anyagok nem minősülnek szerkesztői tartalomnak, előzetes ellenőrzésen nem esnek át, az üzemeltető véleményét nem tükrözik.
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!