Kezdőoldal » Számítástechnika » Programozás » Hogyan mükdik egy beszédfelism...

Hogyan mükdik egy beszédfelismerő szoftver?

Figyelt kérdés

jelenleg a google a legjobb? ha azt mondom neki körte akkor mit csinál a hanggal a szoftver? milyen algoritmusok futnak rajta végig? hogyan tudja mit mondtam? létezik nyílt forráskódú beszédfelismerõ?

2015. jan. 1. 15:19

1/9 anonim

válasza:

> létezik nyílt forráskódú beszédfelismerõ?

[link]

Nekem úgy tűnik, igen, van egy pár.

2015. jan. 1. 15:35

Hasznos számodra ez a válasz?

2/9 anonim

válasza:

"Hogyan mükdik egy beszédfelismerõ szoftver?"

Több különböző megoldás lehet, de főleg neurális hálózatokat vagy még inkább rejtett Markov-modelleket használnak a hangok szöveggel való megfeleltetésére.

Nagyon leegyszerűsítve az egész úgy működik, hogy először a hangból kiszűrik az emberi beszédre jellemző hangsávot, ezt analizálják, majd pl statisztikai módszerekkel megpróbálják illeszteni ismert szavakra, kifejezésekre. Persze ez messze nem ilyen "egyszerű", mert nem számol a hibákkal. Mind a rögzített hang, mind a beszéd tartalmazhat hibákat, nem beszélve az akcentusról, tájszólásról, illetve az ismeretlen, vagy akár idegen nyelvű szavakról.

"jelenleg a google a legjobb"

Szerintem ezt nem lehet így kijelenteni, mivel a fentiekből adódóan a beszédfelismerés erősen nyelv- és környezetfüggő. Egy általános célú (pl diktálásra szolgáló) beszédfelismerő rendszert sokkal nehezebb megvalósítani, mint pl egy kötött szótárasat.

Ha komolyabban érdekel a téma, tudom ajánlani "A magyar beszéd" című könyvet, alaposan körüljárja a kérdéseket.

2015. jan. 1. 16:37

Hasznos számodra ez a válasz?

3/9 anonim

válasza:

A legnehezebb arra rajonni, hogy hol kell elvalasztani a szavakat, mivel beszed kozben nem ejtunk szuneteket a szavak kozt ugy, mint irasban. Nincs elvalaszto szimbolumunk. (Sot, vannak olyan nyelvek, ahol az irott szimbolumokban sincs)

2015. jan. 1. 17:21

Hasznos számodra ez a válasz?

4/9 A kérdező kommentje:

és az alap szófelismerõ is ann-val müködik?mert a siri csak a jövõben vezetné be az ann-t arra a célra hogy profilozza az user szokásait. de akkor az alap felismerõ is tartalmaz ann-t?

2015. jan. 1. 17:44

5/9 anonim

válasza:

Amit én ismertem beszédfelismerő, frekvencia tartományra transzformálta a hangot. Ott volt egy sávszűrés, hogy az emberi beszéd frekvenciái maradjanak, majd egy pitch eltávolítás, zajszűrés gyanánt.

Ahogy a kolléga is mondja, a szavak elválasztása talán az egész folyamat legnehezebb része. Mivel semmilyen támpont nincs arra vonatkozóan, hogy hol kezdődik és hol ér véget egy szó a folytonos beszédben. Ezt úgy küszöbölik ki, hogy elemi hangokra - fonémákra, bontják a teljes hangot, majd ezek karakterisztikájának elemzésével adnak egy becslést a szavakra. Ahogy írták a rejtet Markov modellek és a neurális hálók tipikusan jók erre a célra. A gond, az hogy feltanított háló vagy modell nem mindig ad stabil eredményt még ugyan arra az emberre sem. Idegen nyelvekre, akcentusokra pedig különösen érzékenyek ezek a megoldások...

2015. jan. 1. 19:17

Hasznos számodra ez a válasz?

6/9 A kérdező kommentje:

és miért nem lehet betünként elemezni?

ha azt mondom h. "miért nem?" akkor ez kiejtve miértnem? most ha betünként elemezné akkor az egyetlen értelmes mondat a miért nem? lenne mivel a mi ért nem? ez 3 értelmes szó de a mondat értelmetlen lenne.... jó mondjuk ha szavakat akar diktálni akkor meg helyes...nehez ez...

2015. jan. 1. 22:14

7/9 anonim

válasza:

Ott a kulcsszo!

"az egyetlen ertelmes mondat"

Tehat a szovegfelismeronek el kell tudnia valahogy donteni, hogy melyik ertelmes mondatok rakhatoak ki az adott bemenetbol. Ugy, hogy meg azt sem tudja, hogy hogyan kell szavakra bontani, mivel pont a szavakra bontashoz kell tudni, hogy az adott szavakbol milyen ertelmes mondatok rakhatoak ki.

2015. jan. 1. 22:18

Hasznos számodra ez a válasz?

8/9 anonim

válasza:

Es persze mindezt ugy, hogy

1) nem tarthat elore kiszamolt adatbazist az ertelmes mondatokrol, mivel vegtelen sok van. Tehat nem lehet mondjuk hash-tablat epiteni a bemeneti stringekre

2) a bemenetben hiba is lehet

3) zaj is kerulhet a bemenetbe

4) az is lehet, hogy nem ertelmes mondadot szeretne diktalni a felhasznalo.

stb.stb.stb.

2015. jan. 1. 22:24

Hasznos számodra ez a válasz?

9/9 anonim

válasza:

> és miért nem lehet betűnként elemezni

Mert még mi magyarok sem pontosan betű szerint ejtjük ki a szavakat.

Most gondold el, hogy működne ugyan ez az angoloknál.

Ráadásul a hangfelismerő szoftverek 90% angol nyelvre készül, hiszen ott térül meg minden kutatás. Ezért angol szinte minden élen járó kutatás, mivel ha nincs piac nincs finanszírozás.

A beszélt nyelv legelemibb alkotóelemei a fonémák, azaz beszédhangok. Ezekből lehet csak kikövetkeztetni a mondatokat. Ráadásul a akcentus/tájszólás miatt a nincs egyértelmű kapcsolat a kiejtések és a szavak között. Így a szavak illesztése meglehetősen rugalmas, úgynevezett fuzzy logikát követ, tehát a beszédfelismerés folyamatában több lehetséges "nyertes" mondat is versenyezhet, amíg megfelelő valószínűséggel nem választunk egyet.

A fonémáknál alacsonyabban szinten már a hang spektrumának analízise lehet. De ezt is csak arra használják, hogy pontosítsa a fent említett módszert.

2015. jan. 2. 13:19

Hasznos számodra ez a válasz?

Kapcsolódó kérdések:

Igaz, hogy idehaza programtervező informatikusokból, informatikusokból, gazdinfóból túlképzés van?

Jó ötlet lenne egy ilyen szoftver írása?

Szoftver írása, hogyan kell?

Linux milyen programokat futtat?

Milyen könyvet ajánlotok android szoftverfejlesztéshez?

Tudnátok jó könyve (ke) t, oldalakat ajánlani, hogy a szoftver fejlesztés alapjait megismerhessem?

Számítástechnika főkategória kérdései »

Számítástechnika - Programozás kategória kérdései »

A weboldalon megjelenő anyagok nem minősülnek szerkesztői tartalomnak, előzetes ellenőrzésen nem esnek át, az üzemeltető véleményét nem tükrözik.
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!