Sasayama’s Weblog

2007/05/01 Tuesday

画像からの英文リストの作り方

Filed under: 未分類 — 管理人 @ 16:20:03

2007/05/01(Tue)
　
null
インターネットサイトに画像のリストがあって、それをテキスト化するのに、ちょっと骨を折ったので、ちょっと、メモ書き風に記しておきます。

1.まず、サイト上の画像をCaptureXP

などで切り取り、ファイルへ

2.この画像をJ-Trim
などで、カラーを二値化し、変換、それをふたたびファイルに保存

3.画像が英文だったのだが、これを読み込むのに適当なOCRが、残念ながら、日本のソフト(読んでココ!や読取革命)ではうまく読み込めない。

4.そこで、「ABBYY FineReader Professional Edition 8」
または
>「the SimpleOCR Freeware application (version 3.1)」

という、海外のフリーソフトをダウンロード。
(意外にも、海外ソフトで、フリーのOCRソフトは、少ない。
このほかには、TopOCR 2.5,FreeOCR 1.5 ,Tesseract OCR,GOCR,Microsoft Office Document Imaging,ReadIris Pro. I ,OmniPage
等があるが、私としては、TopOCR 2.5が使いやすいと思っている。
「I want to have OCR software. 」では、ReadIris Pro. I を推奨している。
なお、上記のABBYY FineReader Professional Edition 8では、試用版では、50回のスキャンと、それぞれ1回ごと一枚のスキャン結果の保存が出来るようになっている。

(追記－このごろABBYY FineReader Professional Edition 試用版での連続スキャンはできなくなった模様。やはり、フリーだと、上記のTopOCRの読み取り制度は抜群である。)

これらについては「Free OCR software? You may already have it…」
や
「ocr software at Free Downloads Center」
に詳しい。)

5.このOCRのソフトの読取制度は非常に高い。
ほとんど、完璧に読み取ってくれる。
若干の修正箇所をマニュアルで修正

6.スペルチェッカーというソフトにかけてみる。
この場合、
「Free Online Spell Check Service 」
というのを使う。

7.なかなか、微妙な誤りがあるもので、たとえば、Iをアラビア数字のⅠと読み込んでいたりするのがこれで発見される。
何回も、チェッカーにかけて、完成。

といった具合でした。

为翻译对汉语, 使用这
⇒http://translate.livedoor.com/chinese/
Translate
⇒http://www.google.com/translate_t

笹山登生HOME-オピニオン-提言-情報-発言-プロフィール-掲示板-ご意見