2011年03月04日
『グーグル・ドキュメント(Google Docs)』の日本語OCR、識字率は9割以上!(私的検証結果)
『グーグル・ドキュメント(Google Docs)』の日本語OCR、識字率は9割以上!(私的検証結果)
『グーグル・ドキュメント(Google Docs)』のOCR処理?
ここのところ毎日のように新聞記事で取り上げられていますが、
米国グーグル(Google)では2011年2月28日、
『グーグル・ドキュメント(Google Docs)』のOCR機能を強化し、
日本語を含む合計34言語のOCR処理を行えるようになりました。
<参考文献>
Docs ヘルプ
『アップロードとエクスポート: PDF ファイルやテキスト付きの画像ファイルを
Google ドキュメントに変換してアップロードする』
※その他についても、知りたい人は…
『Google ドキュメントの新機能』
書類などをスキャンした画像ファイルやPDFファイルを、
『グーグル・ドキュメント(Google Docs)』にアップロードすると、
テキストの画像を読み取り、
自動的にテキスト・データデータに変換してくれるのです。
方法は?いたって簡単!
≪要点≫
ファイルをドラッグして、アップロードするだけ!
それだけで、テキストデータが作られる!
もちろん、無料!
<詳しく説明すると…>
『グーグル・ドキュメント(Google Docs)』を開いて、
画面左上部の『アップロード』を選択します。
『ファイルのアップロード』の画面に変わるので、
『ここにファイルをドラッグ&ドロップしてください』と表示されている場所へ、
テキストをスキャンした画像(JPG等)やテキストの入ったPDFファイルを、
ドラッグ&ドロップします。
ファイルのサイズは、現在は2Mバイトまでです。
ちなみに有名な、『25年前の春、2人の若者が…』で始まる、
『ウォールストリート・ジャーナル』の世界で一番売れたコピー、の、
日本語訳の一つを画像データにしたところ、A4の用紙1枚にまとまり、
300dpiで読み取ると、523KBでした。
(ワードで、MSP明朝11ポイントを使用)
(ちなみに、倍の精度の600dpiで読み込んだときは、1.49MBでした。)
これをサンプルにします。
画像は、既に、その画像データを、ドラッグ&ドロップした後のものです。
中ほどの『変換オプションの選択』は、
本来は、この画像のようにチェックを入れ直すらしいのですが、
意味がよくわからなかったので、各種試してみましたが、
チェックはそのままにしておいても、結果は変わらず、
自動的にテキストを抽出していました。
(どうやら、プログラムの中で、自動的に判断しているようです。)
オプションは、無視しても大丈夫でした。
画面下部の『アップロードを開始』をクリックします。
すぐに読み込みが終わりますが、その後しばらく(30秒以内らしいです)、
輪がぐるぐる回り待機した後、
ファイル名の左に緑色のレチェックが入り、
下部に『アップロードが完了しました。』と、表示されたら、終了です。
それでは、画面左上部の、『Googleドキュメントに戻る』をクリックして、
成果を見てみましょう。
一番上の黄色の部分は、注意書きで、
邪魔だったらマウスの右ボタンで消すよう指示されているので、
無視します。
その次の枠で囲われた部分が、テキストの画像原稿データです。
さらにその下に、グーグルでテキストに変換した文書が現れます。
ラテン系の文字は、識字率が99%くらいあるらしいですが、
日本語の場合は、体感では、9割以上、と言ったところでしょうか。
雑な人がワープロで入力したレベルかな?
難しい文書でなければ、ほぼ内容は、わかる、というレベルです。
個人的には、グーグルの翻訳ソフトで約した日本語より、
ずっとよくわかります。
ただし、文字の解析だけを行っているようで、
文章の解析はやっていないようです。
少なくとも、文章の解析を行った時の、
ここがおかしいのでは?と言う表示はありません。
なお、テキストの画像は、縦書きは不可で、横書きに限ります。
もちろん、手書はだめです。
≪各種試してみました≫
・文書を少し傾けて読み込ませると…
著しく、識字率が落ちました。
・300dpiで9割なら、600dpiでは、ほとんど正確に読み取れるのでは?
同じ文書で、バイト数が、523KBから1.49MBになりました。
現在の上限の2Mバイト以下です。
期待して、アップロードしました。
読み込みに時間がかかりました。
ページを開くと、
黄色の注書の下に大きく、
テキストが表示されています。
テキストの画像はありません。
(処理の容量の上限があるのでしょう。)
期待したテキストの内容は、
ひどいものでした。
300dpiで読み込んだ時のほうが正しく読みとれていたのです。
現在の制限容量のせいでしょうか?
残念!
・PDFファイルのアップロード
(1)テキスト画像文書のPDFの場合
これは、全く駄目。役に立ちません。
うまくいく場合もあるかもしれませんが…
(2)テキスト文書のPDFの場合
これは、素晴らしかったです。
今回は、いらない空白が1も自分挿入されただけで、
後は、完璧に読み込まれていました。
まあ、これは、もともとPDFファイルには、テキストが埋め込まれているので、
当たり前と言えば当たり前なのですが。
(ちなみに、この場合は、そもそも、アップロードなどしなくとも、
テキストを選択してコピーし、ワープロやエディタに張り付ければ、
それで出来上がりです。
もちろん、グーグル・ドキュメントにそのまま張り付けでもOKですが…)
≪結論≫
○そこそこPCスキルがあり、
ほぼブラインドタッチで、ゆっくりと話す程度に入力できる人には、
現在のレベルでは、あまり役立たないかもしれません。
ただ、腕が疲れて、入力するよりも、チェックして修正したほうがいいと、
そう思う時には利用価値があるでしょう。
○一方、テキストの入力に時間がかかるとか、苦痛だとか感じる人には、
ぜひおススメです。
なにしろ、今のレベルでも、瞬時に登録が終わり、
しかも9割以上の識字率があるので(管理人の主観では)、
後は少しずつ修正するだけで終わりですから。
まあ、パソコンは、とても便利ですが、
道具の一つに過ぎないのですから、
自分に合わせた使い方をすればよいのです。
気分に合わせて使用しようかな?
【グーグル観測の最新記事】
この記事へのコメント