Szövegfelismerés speciális betűtípusú idegennyelvű dokumentumon?
Adott egyelőre egy darab - a jövőben esetleg több - PDF fájl, ami egy nagyjából 500 éves kötet szkennelt verziója. A kötetet értelemszerűen egy akkori, valamelyest cirádás, bizonyos betűkben a maitól teljesen eltérő betűtípussal nyomtatták, amit helyenként magam sem tudok biztosan megfejteni.
Létezik esetleg olyan szoftver (természetesen nyitott vagyok fizetős megoldásokra is, akár drágább ársávban is), amivel ezeket a szövegeket viszonylag nagy sikerességi százalékkal fel lehetne ismertetni és szöveggé alakítani ezt az anyagot?
Mivel sok betű nagyban eltér a mai fomájától, így a sima egyszerűbb szövegfelismerők amiket próbáltam eddig, elég gyengén muzsikáltak. Ha van esetleg olyan eszköz amibe megadhatnék én magam mintákat, hogy melyik betű hogy néz ki, és ezt is figyelembe tudná venni a felismerés során, az például segítség lehetne a maitól eltérő formájú betűk felismerésében. De ha bármi egyéb olyan szoftver van, akár csak valami képanalizáló szoftver, ami valamilyen módon közelebb segíthet a dokumentum átalakításához, az is érdekel - természetesen mint fentebb is írtam, a fizetős alternatívák is.
Valakinek van valami javaslata esetleg?
Alapvetően a szövegfelismerők többsége "tanítható" szerintem. Elég rég használtam már, de az utolsó emlékeim szerint, amiben nem volt biztos azt "megkérdezte" és kézzel kellett beírni, hogy az milyen karakter. Ha jól emlékszem ezt meg is jegyezte talán.
Nem láttam a dokumentumot, de ha tényleg ennyire macerás (pl régi nyelvezet, így a "gyári" szótár mit sem ér) akkor lehet érdemes felkeresni vele egy programozót, mert célszerű lenne egy kis AI-t belevinni a történetbe. Persze nem tudom mennyi a keret (nyilván egy profi vagy egy cég elég húzós összeget kérne érte).
Kapcsolódó kérdések:
Minden jog fenntartva © 2024, www.gyakorikerdesek.hu
GYIK | Szabályzat | Jogi nyilatkozat | Adatvédelem | Cookie beállítások | WebMinute Kft. | Facebook | Kapcsolat: info(kukac)gyakorikerdesek.hu
Ha kifogással szeretne élni valamely tartalommal kapcsolatban, kérjük jelezze e-mailes elérhetőségünkön!