2013年4月16日火曜日

「読取革命」で印刷物のデジタル化

「読取革命(光学式文字読み取り認識ソフト=OCR)」、前から名前は知っていたが、印刷文書のデジタル化がこんなに簡単に出来る物とは知らなかった。
ワードプロセッサーで作成された印刷物や他のパソコンで作成され、手書きが加えられた文書などを自分のパソコンに取り込み、編集などが出来る優れものである。

褒め過ぎです。
100%完璧に読み取る事は出来ません。
一番弱いのは手書き文字、次は紛らわしい漢字、複雑な罫線のある表などは打ち直した方が早い気がします。
しかし、OCR読取の性能を知るため、いろいろな文書をスキャンして見ました。
今回は、三郷文化財研究会の総会資料を作ってみました。
原本はこれまで会の副会長を担当していたHさんが作成していたワープロ文書と、現役員が作成した活動報告や予算決算書を統一するものでした。
ワープロ文字、ある人はパソコンで明朝体で、別な人はパソコンでも罫線が不得意とかで印刷したものに手書き罫線を入れた印刷物等々、総会資料が多種多様のページになってしまう。
それを、OCRで読み取り、文字は全てMSゴジック体に統一し、見出しは16ポイントに、本文は11ポイントに統一、議案番号、ページ番号の位置などを編集するものである。

いやはや読取が不完全で、大変な作業が発生してしまった。
最初から打ち直すより早い事は早いが、画像として読み取るのだから訂正すると、とんでもない結果が出て来る。
文字がどこかに飛んでしまい、印刷して見ると出て来る、編集をするとこんな事が頻繁に起きて来るのである。
まだまだの感があるOCRであったが、なんとかかんとか胡麻化しながら出来上がった。
何事も挑戦してみる性格のパソ爺であるが、今回はいささかて手を焼いた経験であった。
しかし、全ての文書がデジタル化し、USBに納められたから以後はそれを手直して行けば良いと考えるが、早計である。
何故なら、いろいろひねくりまわして体裁を整えてあるので、余程熟練した人でないと引き継がれられない心配をしている。

1 件のコメント:

  1. OCR読み取りについては、私も以前から気にしていました。希望の書類をスキャナーで読み取り、それを編集、加工等が出来れば、新規で最初から作成するよりも、はるかに時間と手間が省けると思っていました。特に楽譜の編集がしたかったったのですが、何回か挑戦しましたが上手く行きませんでした。手間がかからず、スピーディーに処理できるソフトが出来ると良いですね。

    返信削除