仕事で役所に書類を提出することになった。様式は決まっており、その印刷物をもらえたが、今後再利用することを考えるとWordの文書ファイルにしておきたい。まずキヤノンの複合機でスキャンしてPDFファイルにした。
Office 365の最新WordであればPDFファイルを直接読み込むことが出来る。300 dpi×300 dpiの解像度でも正しく文字を抽出してくれて大変実用的な機能だということが分かった。
画像としてスキャンしているので文字コードは埋め込まれていない筈。WordがOCR変換しているのだろうが、6,000文字の文書で手直しする必要があったのは30文字も無かった。変換精度99.5%ということになる。
十数年前のOCRソフトで変換精度90%以上と謳っている製品を使ったことがあるが、正直自分で打ち直した方が楽だと思えるほど文字化けが多く実用的でなかった記憶がある。だからこの正確さには驚かされた。実はPDFの中に文字コードがデータとして埋め込まれているのではないかと考えてしまうほどだ。
面白いのは変換ミスしている箇所に癖があることだ。実例を挙げてみよう。
1)【誤】○(マル) -> 【正】0(ゼロ)
2)【誤】x(エックス) -> 【正】×(掛算記号)
3)【誤】ベ -> 【正】ペ
4)【誤】十 -> 【正】士
5)【誤】貝 -> 【正】責
6)【誤】任 -> 【正】賃
7)【誤】負行 -> 【正】節
8)【誤】一三口十 -> 【正】計
1)から3)は見間違いで文字サイズが小さいと人間でもやりがちなミスだ。4)以降は漢字の一部を解析出来ず違う文字として判断している。笑ってしまうのは”ごんべん”を3文字として認識している点で、最初何故こうなった?と首を傾げてしまった。
誤変換を犯すのは大きなフォントサイズのタイトル行の次の行冒頭の一文字が多い。また単語途中の改行でも起きるようだ。全角数字や全角記号を半角として処理する癖もある。この結果からもOCR処理していると分かる。
そう言えばHUAWEI Mate 10 Proには「Microsoft Translator」というアプリがインストールされている。写真からも文字を抽出して翻訳してくれるのだからPDFから文字を起こす処理は楽な作業と言われてしまいそうだ。
WordはPDFから変換した時にレイアウトも合わせようとしてくれるが変な書式が設定されてしまい逆に直し難かったりする。一度テキストとして保存し、自分で最初から書式を設定した方が楽だったりするのは残念だ。(^_^;;