Menu
CHIP Speedtest

ABBYY FineReader 6.0 Sprint

24.05.2011 21:00 | Redakce Chip
ABBYY FineReader 6.0 Sprint
Jak naskenovaný dokument editovat? Nejprve jej musíte převést na text. Právě to dělá tento OCR software z Chip DVD 06/11. A umí to skvěle.

Máte vytištěný dokument a potřebujete jej dostat zpět do počítače a pokud možno jej ještě upravovat? Pak potřebujete OCR software, který dokáže obraz převést do textové podoby. Světovým odborníkem na čtení textu je ruská společnost ABBYY. Jejich produkt FineReader je určen pro domácí uživatele. Nabízí vše, co je pro čtení potřeba. Zvládne obsloužit váš skener, analyzuje strukturu dokumentu, převede jej na text a nakonec exportuje do vámi požadovaného formátu – třeba přímo do Wordu, Excelu nebo HTML stránky.

Na Chip DVD najdete plnou verzi programu ABBYY FineReader 6.0 Sprint v ceně 900 Kč. Program nemá žádná funkční ani časová omezení. Dnes je tento program nahrazen novou verzí FineReader Professional 10 (zkušební verze) s vyspělými funkcemi rozpoznávání a formátování textu a podporou nejnovějších verzí formátů kancelářských dokumentů (e-shop).

 

Skenování: TWAIN ovladač může u každého skeneru vypadat trochu jinak.
Skenování: TWAIN ovladač může u každého skeneru vypadat trochu jinak.

Ze skeneru do PC

Nyní se už můžete pustit do přidání textu ke čtení. Program si rozumí se skenery, takže přímo ze skeneru můžete načíst dokumenty do programu. Stačí zvolit »Skenovat obraz«. To slouží pro případy, kdy chcete přečíst jen jednu stránku dokumentu. Pokud máte vícestránkový dokument, je třeba zvolit jiný postup. V tomto případě zvolte »Soubor | Skenovat sadu obrazů« a program bude opakovaně volat ovladač TWAIN, který bude dokumenty skenovat. Díky tomu, že ABBYY používá TWAIN, tak skener ovládáte z programu, na který jste zvyklí, s tím nemá FineReader nic společného – jen dostane hotový obraz. Bohužel neexistuje univerzální návod na skenování, každý skener jej má trochu jiný. Každopádně doporučujeme skenovat s rozlišením 600 dpi. Je-li text kontrastní, na kvalitním papíře a bez potíží čitelný, můžete zvolit i nižší rozlišení – urychlí to skenování. Při výkonu dnešních počítačů je jedno, jestli budete skenovat černobíle nebo barevně.

Přečte i obrázky

Čtení: Vlevo je naskenovaný dokument, vpravo přečtený text.
Čtení: Vlevo je naskenovaný dokument, vpravo přečtený text.

Vstupem nemusí být jen naskenovaný dokument. ABBYY si poradí i s dokumenty, které jsou uložené jako obrázky. Podporuje formáty BMP, DCX, PCX, PNG a TIFF. Takže pro čtení lze programu předhodit i dokument, který jste nafotili fotoaparátem. Pro otevření ze souboru zvolte »Soubor | Otevřít obraz« a přidat obrázek ručně. Program bohužel nepodporuje formát JPG, který je díky kompresi pro OCR software nevhodný. Chcete-li dosáhnout nejlepších výsledků, doporučujeme jednoznačně použít skener.

Rozložit a číst

Jakmile máte obrázek v programu, můžete pokračovat ke druhému kroku. Klikněte nyní na tlačítko »Číst všechno«. Dojde k analýze stránky a převodu na text. Podle rychlosti vašeho PC bude proces čtení trvat několik sekund.

Program totiž nejprve bude analyzovat stránku z hlediska rozložení textu, grafických prvků atd. Zelenými obdélníky se označí to, co program považuje za text a červeně to, co považuje za grafiku, která je součástí stránky. Modře se označí tabulky.

Formátování: Export do Wordu zachová obrázky, napodobí barvu a font a zachová směr toku.
Formátování: Export do Wordu zachová obrázky, napodobí barvu a font a zachová směr toku textu.

S obdélníky můžete hýbat, klávesou [Delete] na klávesnici je můžete odstraňovat, pouhým nakreslením nový obdélník vytvoříte. V tom případě bude mít obdélník šedivou barvu a vy do něj musíte kliknout pravým tlačítkem myši a v části »Typ bloku« zvolit, zda se jedná o text, obrázek nebo tabulku. Na pravé straně okna už pak uvidíte přečtený text. Velkou výhodou FineReaderu je, že se snaží zachovat formátování a napodobuje font i barvu textu.

Export

Právě díky zachování formátování má FineReader perfektní možnosti exportu. Komu jde jen o pouhý text, ten může zvolit »Soubor | Uložit text jako« a vybrat z některých jednoduchých formátů (RTF, TXT, HTM). Mnohem komfortnější je ovšem export do editoru, kde můžete s textem dále pracovat – třeba do Wordu. V tom případě zvolte »Soubor | Odeslat do | Microsoft Word«. Dokument se otevře ve Wordu a vy máte možnost okamžitě dělat úpravy nebo opravy. Text je vložen velmi inteligentně, jsou zachovány sloupce, tabulky, popisky pod obrázky je možné jednoduše editovat, jen těžko si lze představit, že by bylo možné export do Wordu vymyslet lépe. Pokud máte v textu hlavně tabulky, doporučujeme exportovat stejným

Prolomení PDF: Vlevo je screenshot vytvořený z chráněného PDF, vpravo pak převedený text.
Prolomení PDF: Vlevo je screenshot vytvořený z chráněného PDF, vpravo pak převedený text.

způsobem do Excelu. Dobře funguje také export do HTML stránky.

Zamčená PDF

Dokumenty PDF mají možnost ochrany – aby je nebylo možné vytisknout, zkopírovat z nich text apod. Pokud máte OCR program, většinu restrikcí můžete vyřadit. Jistě, není to nejsofistikovanější řešení, ale prolamování hesla může trvat věčnost, navíc není právně zcela v pořádku. Mnohem jednodušší je, pokud takové PDF otevřete, zobrazíte jej trochu zvětšený (přiblížení 300 %) a na klávesnici stisknete klávesu [Print Screen]. Poté otevřete libovolný nástroj pro práci s grafikou (třeba Malování) a vložíte obsah schránky. Nyní budete mít grafickou podobu textu. Ten uložíte do formátu PNG. Stránka bude uložena jako obrázek, ale v ABBYY jej otevřete a program z obrázku vytvoří zase text.

Tipy pro dokonalé výsledky

Zvládá i tabulky: Modře označené obdélníky jsou považovány za tabulky.
Zvládá i tabulky: Modře označené obdélníky jsou považovány za tabulky.

Abyste měli co nejlepší výsledky převodu textu, je třeba trochu experimentovat. Přidáme pár tipů, jak dosáhnout co nejlepších výsledků.

Větší = lepší: Rozhodně nepoužívejte při ukládání obrázku ztrátovou kompresi (JPG), skenujte na nejvyšší možné rozlišení. Kompresi na první pohled nevidíte, ale obzvláště kolem písmen vytvoří čtverečky, které razantně snižují úspěšnost čtení. Ideální rozlišení pro čtení dokumentů je 600 dpi.

Více kontrastu: Při skenování dokumentů se nebojte zvýšit kontrast. Písmena více vyniknou proti pozadí a odstraníte průsvity z dalších stránek. Málo kontrastní obrázek lze upravit ve fotoeditoru, prakticky všechny umí kontrast zvýšit.

Bez blesku: Když už dokument fotíte, foťte jej bez blesku pod umělým osvětlením, třeba žárovkou. Blesk na papír přidá odlesk a přepálí některá místa. Pokud to fotoaparát umožňuje, foťte na makro režim.

Správný jazyk: Nemáte-li skenovaný text v českém jazyce, zvolte menu »Jazyk« a vyberte, ve kterém jazyce se text nachází. Program bude lépe rozpoznávat regionální znaky a pro vybrané jazyky má k dispozici slovník, díky čemuž dokáže eliminovat nepřesnosti čtení.

Uveřejněno na Chip DVD 06/11.



Zajímavosti ze světa IT v e-mailu

Stačí odeslat svoji e-mailovou adresu


Odesláním formuláře souhlasíte se zpracováním svých osobních údajů a užitím pro marketingové účely vydavatelství Burda Praha, spol. s.r.o.

Předplatné / nákup chipu Digitální edice chipu Aktuální vydání