Archiv pro štítek: OCR

Online OCR: Převod textu s pomocí webkamery

cam2txtBěhem čtení zakoupené elektronické knihy jsem na náhodných místech narazil na směsici znaků. Tento hash symbolizuje formu ochrany před neoprávněným kopírováním, které se běžně říká social DRM. Nutno podotknout, že DRM ve spojení s ebookem budí strašidelné pocity, social DRM se však nevydává cestou softwarového omezování. Soubor proto otevřete na každé čtečce, jen v něm bude schovaný vodoznak, který snadno identifikuje kupujícího. Můj hash připomínal base64, a proto mě okamžitě začalo zajímat, co je v něm uloženo.

Protože jsem však v danou chvíli byl líný přepisovat hash ze své čtečky do počítače, začal jsem hledat co nejjednodušší OCR. Narazil jsem na jednoduchý portál cam2txt.com, který však nabízel přesně to, co jsem potřeboval. S pomocí webové kamery služba zachytí obrázek a ten následně dekóduje (vyhledá v něm text). V Chrome jsem měl problémy s povolením webkamery, to však patrně bylo způsobeno tím, že používám Linux. Vše naštěstí vyřešila změna prohlížeče, přičemž věřím, že na Windows vám Chrome potíže nezpůsobí.

Cam2Txt.com dokáže znaky dekódovat, vyžaduje to však chvíli laborování. Úspěch totiž významnou měrou závisí na kvalitě vstupní fotografie. Nejlepší výsledky přináší přímé nahrání souboru s obrázkem v digitální podobě. Věnujte rovněž pozornost správnému nastavení jazyka (volba Czech nechybí). Jak už to u OCR bývá, finální kvalitu výstupu ovlivňuje i použitý font a jeho velikost, roli hrají i rozestupy mezi jednotlivými písmeny. Na rychlý převod krátkého vstupu však může být Cam2Txt.com dostačující, protože uživatele nezdržuje registrací a ihned zobrazí získaný text.

A co vlastně hash obsahoval? Bohužel další, pro mě neznámý hash, tipuji jej na interní řešení daného obchodu. Přesný obsah kódu jsem se tedy nedozvěděl, s největší pravděpodobností však půjde pouze o ID, které v tabulce eshopu identifikuje mě jako kupujícího.

Online OCR s podporou češtiny

OCRNedávno jsem potřeboval získat text z obrázku ve formátu PNG. Mohl jsem pochopitelně otevřít libovolný textový editor a vše vyřešit pouhým přepsáním. Lidé se však snaží chodit zkratkami, a proto i já začal hledat lepší řešení v podobě technologie OCR sloužící k optickému rozpoznávání znaků. Objev v podobě portálu www.onlineocr.net mě překvapil jednoduchým rozhraním, online dostupností a podporou české diakritiky. Další kladné body projekt získal za možnost využití služeb bez nutnosti registrace.

Vyberte jazyk a výstupní formát

Nahrát lze obrázek o maximální velikosti čtyř megabajtů, i když  web uvádí jako maximální přípustnou hodnotu 4 mb, tedy megabity. Podpory se dočkaly nejběžnější soubory k reprezentaci obrázku (PNG, JPEG, BMP, GIF i TIFF). Uživatel zvolí pouze vstupní jazyk (v našich končinách půjde o Czech) a výstupní soubor (TXT, DOC či XLS). Po nahrání souboru stačí opsat snadno rozluštitelný captcha kód a rázem se zobrazí výsledek. Za hodinu lze takto zkonvertovat až 15 souborů.

Za registraci další funkce

Pakliže vás například limituje velikost nahrávaného souboru, stačí si vytvořit uživatelský účet. Rázem převedete až 100 MB, přičemž jednotlivé obrázky mohou být v jednom ZIP archívu. Výsledek lze dále stáhnout jako HTML, PDF či RTF. Výhody ovšem mají háček v podobě kreditového modelu. Každý kredit slouží k převodu jedné stránky. Po registraci jich obdržíte celkem 20 na vyzkoušení služby. Další lze případně dokoupit. Osobně jsem však vystačil s bezplatným modelem a žádná omezení jsem nezaznamenal.

Jak jsem převáděl dokument v PDF do PDB

PDFNedávno jsem potřeboval provést docela jednoduchou činnost. Zkonvertovat větší množství textu ve formátu PDF do PDB, což mi umožní jeho přečtení na již starším PDA, kde mám nainstalovaný program Mobipocket reader suplující čtečku ebooků. Možná si podobně jako já v počátku myslíte, že v dnešní době nemůže jít o nic složitého. Rozhodl jsem se pro nejrychlejší možnou cestu a začal s vyhledáváním online řešení. Těch jsem nakonec nalezl několik, vždy však postrádala možnost nastavit kódování. Když už se nakonec převod povedl (i s tím měly některé portály problémy), získal jsem PDB soubor, v němž se mi nepodařilo korektně zobrazit diakritiku. Nezbývalo proto než přistoupit k hrubší síle a nainstalovat aplikaci, jenž mé starosti vyřeší. Bezplatné programy se však před mým zrakem úspěšně skrývaly a já s pomocí vyhledávače narážel jen na různé omezené trial verze. Což o to, omezená doba používání by v mém případě nevadila, když jsem však zjistil, že bez zakoupení se provede konverze jen několika prvních stránek, začal jsem znovu přemýšlet. V tom mě napadlo svěřit celý úkol službě Google Drive. Ta se totiž chlubí integrovaným OCR, a proto jsem doufal, že zvládne s formátem PDF vykonat přesně to, co si přeji.

Google Drive = bezplatná konverze PDF souboru?

Před prvním nahráním stačilo potvrdit, že si skutečně přeji některé dokumenty převést do použitelnější (editovatelnější) podoby a určit jazyk, v němž jsou napsány. Poté již bylo za pár vteřin hotovo. Jakmile se daná položka objevila v cloudu, stačilo zvolit její opětovné stažení. Dialog vám přitom dal na výběr z řady formátů, z nichž já vybral TXT. Jak snadné, rychlé a hlavně spolehlivé, protože se neobjevil žádný zádrhel v podobě nevyhovujícího kódování.

Stále jsem však ještě nevlastnil vysněný ebook v PDB. S převodem do tohoto formátu však již mám zkušenosti, proto jsem ihned věděl, že stačí využít Simple Palm Doc Konvertor a do minuty bude hotovo.

Příchozí dotazy:

  • pdf to pdb
  • pdb to pdf
  • převod pdf do pdb
  • pdf do pdb
  • převod pdf na pdb
  • konverze pdf do pdb
  • převod pdb do pdf
  • převod z pdf do pdb
  • doc to pdb
  • pdb do pdf