Hogyan lehet scannelt könyvet szöveggé alakítani?
OCR-el át kell alakítani előbb a dokumentumot, akkor kereshetővé válik.
Sajnos a karakterfelismerés hatékonysága betűtípus és méret függő, ezen túlmenően maga a szkennelés minősége is befolyásolja.
Ha magyar nyelvű, akkor rossz híreim vannak.
A magyar elég gáz a felismerés szempontjából.
Ha nincsenek ékezetek, pl. angol nyelvű, akkor elég jó a felismerési arány, de ha magyar, akkor az ingyenes módszerekkel nem fogsz használható eredményt kapni.
Van egy nagyon jó kis ingyenes PDF olvasó, ami (sok más jó tulajdonsága mellett) beépített OCR-t is tartalmaz: PDF XChange VieWer
Már évek óta nem fejlesztik, de az utolsó verzió továbbra is letölthető a gyártó weboldaláról:
(Van egy utód-termék, a PDF XChange Editor, de az szerintem még mindig nem hozza az elődje minóségét.)
A telepítője angol, de nem kell megijedni, mert telepítés után az Edit -> Preferences menüben át lehet váltani magyar nyelvre; a magyarítás (szinte) hibátlan. Ugyanitt érdemes kikapcsolni a keresésszolgáltatókat.
Az OCR alapból csak pár nyelv felismerését támogatja, a többihez (köztük a magyarhoz) külön kell telepíteni ezt:
Sajnos ez csak sima HTTP protokollal érhető el, HTTPS-sel nem, emiatt a legtöbb böngésző már hisztizik, de lépjünk túl rajta.
A PDF fájl megnyitása után a Dokumentum -> OCR pages… menüpontban lehet elindítani a felismerést. Ez a rész sajnos nincs magyarítva, de nem ördöngősség: a Primary Language-et kell Hungarian-ra, az Accuracy-t Medium-ra állítani, a többi maradhat az alapbeállításon.
OK-ra kezd el dolgozni, ha végzett, elmenthetjük a fájlt.
A felismert szöveget külön rétegként adja hozzá: nem látjuk azt, de az Eszközök -> Alapvető eszközúk -> Kijelölés eszközt kiválasztva ki tudjuk jelölni. (Ez külön gombként az eszkötáron is kint van.)
Azzal azért számolni kell, hogy a legtökéletesebbnek tűnő nyeranyag esetén is lehetnek (lesznek is) rosszul felismert betűk/szavak, pl. I helyett l, vagy ü helyet ii, stb. Tehát ha a keresés (Ctrl+F vagy távcső ikon) nem találja meg a teljes szót, akkor meg lehet próbálni annak csak egy részletére rákeresni.
Altalában a sima, fekete-fehér doksikkal van a legkevesebb gond, viszont ha a szkennelt szöveg alá volt húzogatva, vagy szövegkiemelőzve, akkor akár eléggé reménytelen is lehet az eredmény.
Bocsánat, nem tudom mit néztem el hajnalban, de most ellenőrizve a HTTPS-ses [link] link is működik már!
A többi elgépelésért is elnézést kérek!
(#8 voltam)
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!