私はタイプが一本指なので、入力が遅い。 仕事ではないので支障はないが、定年後の今、自分が現役の頃の資料をホームページにして、現役の皆さんに役立ててもらおうと企画したページがあったが、170ページもあるので途中でタイプが面倒になり中断してしまい、長らく工事中のままになっていました。 最近、OCR(文字認識)ソフトは非常に進歩した!、という話しを聞いたが、資料を読み取るスキャナーを持っていないので、そのままになっていました。 ふと「デジカメで撮影した書類では、OCRソフトは変換してくれないだろうか?」、と気づき、テストしてみることにしました。 使ったOCRソフトはネットで探した ワンタッチOCR for Word&Excel 体験版でした。 | |
3Mピクセルのデジカメで、B5サイズを撮影
![]() クリックで原寸表示になります。 | |
「ワンタッチOCR」での文字認識
30数年前の原稿で、紙が変質している上、手持ち撮影による歪みや斜ぎ、などの不利な環境にしては、複雑な文字以外は、かなり良好な、文字認識でした。 しかもいちいち方向転換やトリミング、傾き修正などのイメージソフトによる修正も必要ありませんでしたし。認識違いの文字もマウスを置くと候補文字が表示され容易に修正できました。 | |
テストのつもりが、ワンタッチOCR for Word&Excel 体験版の試用期間が30日もあったので、スキャナーなしで
「トヨタ生産方式 初めての教科書」の復刻ページができてしまいました。興味のある方はお読みください。 また、お世話になったワンタッチOCR for Word&Excel 体験版は とても使いやすいソフトでしたので、課題をお持ちの方は体験してみてはいかがですか。 | |
合成音声による読み合わせチェック 一通り、チェック修正をすませて、公開したところ、そのページを読んだ方から 「OCR特有の変換ミスが多くある」と、ミス部分を親切に書き出して連絡してくださいました。 これを見て間違いの多さに驚き、目視チェックのいい加減さを改めて認識させられました。 OCRの変換ミスは、パソコンに読ませて、読み合わせチェックをすると、発見しやすい!、というアドバイスを受けたので、 環境を整え、実行してみると、「け」が「り」になっていたり、「る」が「ろ」になっていたり、等々。 OCRが認識ミスする文字は「目で見たとき」も見間違ってしまっていることが多かった。 この読み合わせチェックには 村田組さんがフリーで公開している テキスト読み上げソフト「reporter」のお世話になりました。 このソフトは、読み上げさせたい文章を通常のコピー操作をするだけの、単純な操作で音読してくれます。 なお、音声合成などのエンジンはMicrosoft Agentを使用します。 ←このボタンを押して、パソコンが喋らない場合は 1、スピーチエンジンが英語だけで日本語がインストールされていない。 「日本語スピーチエンジン」 lhttsjpj.exe spchapi.exe ↑の2つをクリックしてダウンロードした上で、ダウンロードしたファイルを開いてインストールしてください。 それでも喋らない場合は 2、Microsoft Agent全体がインストールされていない。 「reporter」に同梱されている「agent.html」を開いて、その説明にしたがって、Microsoft Agent全体をインストールしてください。 |