音楽と映像の日々

2019年05月24日

Office 365のWordでPDFを読み込んで変換してみたら誤変換が面白い！

仕事で役所に書類を提出することになった。様式は決まっており、その印刷物をもらえたが、今後再利用することを考えるとWordの文書ファイルにしておきたい。まずキヤノンの複合機でスキャンしてPDFファイルにした。

Office 365の最新WordであればPDFファイルを直接読み込むことが出来る。300 dpi×300 dpiの解像度でも正しく文字を抽出してくれて大変実用的な機能だということが分かった。

画像としてスキャンしているので文字コードは埋め込まれていない筈。WordがOCR変換しているのだろうが、6,000文字の文書で手直しする必要があったのは30文字も無かった。変換精度99.5％ということになる。

十数年前のOCRソフトで変換精度90％以上と謳っている製品を使ったことがあるが、正直自分で打ち直した方が楽だと思えるほど文字化けが多く実用的でなかった記憶がある。だからこの正確さには驚かされた。実はPDFの中に文字コードがデータとして埋め込まれているのではないかと考えてしまうほどだ。

面白いのは変換ミスしている箇所に癖があることだ。実例を挙げてみよう。

　1)【誤】○（マル）　->　【正】0（ゼロ）
　2)【誤】x（エックス）　->　【正】×（掛算記号）
　3)【誤】ベ　->　【正】ペ
　4)【誤】十　->　【正】士
　5)【誤】貝　->　【正】責
　6)【誤】任　->　【正】賃
　7)【誤】負行　->　【正】節
　8)【誤】一三口十　->　【正】計

1)から3)は見間違いで文字サイズが小さいと人間でもやりがちなミスだ。4)以降は漢字の一部を解析出来ず違う文字として判断している。笑ってしまうのは”ごんべん”を3文字として認識している点で、最初何故こうなった？と首を傾げてしまった。

誤変換を犯すのは大きなフォントサイズのタイトル行の次の行冒頭の一文字が多い。また単語途中の改行でも起きるようだ。全角数字や全角記号を半角として処理する癖もある。この結果からもOCR処理していると分かる。

そう言えばHUAWEI Mate 10 Proには「Microsoft Translator」というアプリがインストールされている。写真からも文字を抽出して翻訳してくれるのだからPDFから文字を起こす処理は楽な作業と言われてしまいそうだ。

WordはPDFから変換した時にレイアウトも合わせようとしてくれるが変な書式が設定されてしまい逆に直し難かったりする。一度テキストとして保存し、自分で最初から書式を設定した方が楽だったりするのは残念だ。(^_^;;

posted by バンブーヤン at 00:22| Comment(0) | TrackBack(0) | パソコン

プロフィール

バンブーヤン

【アフィリエイト広告を利用しています】 2011年6月に副業のつもりでアフィリエイトを始めたものの自分の興味のまま書き散らかしてブランディングに失敗したブログです。毎日その時自分が気になったことを書いています。

プロフィール

カテゴリアーカイブ

アニメ(171)
映像ハード(77)
雑誌(32)
所有ハード(153)
音楽ソフト(112)
パソコン(149)
映像ソフト(73)
ビジネス(52)
音楽ハード(57)
日常(272)
WF(52)
キャラホビ(33)
デジカメ(217)
ゲーム(75)
HEST(43)
CEATEC(27)
マラソン試聴会(27)
AHTE(62)
TIAS(91)
大商談会(173)
パソコン書籍(16)
ジャンフェス(22)
カメラ雑誌(40)
利用明細(11)
AV雑誌(160)
ACE(20)
モバイル(275)
TAF(58)
カルチャー(55)
超会議(97)
パズドラ(673)
コミケ(82)
地方イベント(105)
VW500ES(16)
テレビ番組(196)
マネー(198)
BZT9600(12)
M43(106)
Ingress(449)
きらファン(390)
咲うアルスノ(19)

RDF Site Summary

<< 2019年05月 >>
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

月別アーカイブ

2024年11月(30)
2024年10月(31)
2024年09月(30)
2024年08月(31)
2024年07月(31)
2024年06月(30)
2024年05月(31)
2024年04月(30)
2024年03月(31)
2024年02月(29)
2024年01月(31)
2023年12月(31)
2023年11月(30)
2023年10月(31)
2023年09月(30)
2023年08月(31)
2023年07月(31)
2023年06月(30)
2023年05月(31)
2023年04月(29)
2023年03月(31)
2023年02月(28)
2023年01月(31)
2022年12月(31)
2022年11月(30)
2022年10月(31)
2022年09月(30)
2022年08月(31)
2022年07月(31)
2022年06月(30)
2022年05月(31)
2022年04月(30)
2022年03月(31)
2022年02月(28)
2022年01月(31)
2021年12月(31)
2021年11月(30)
2021年10月(31)
2021年09月(30)
2021年08月(31)
2021年07月(31)
2021年06月(30)
2021年05月(31)
2021年04月(30)
2021年03月(31)
2021年02月(28)
2021年01月(31)
2020年12月(31)
2020年11月(30)
2020年10月(31)
2020年09月(30)
2020年08月(31)
2020年07月(31)
2020年06月(30)
2020年05月(31)
2020年04月(30)
2020年03月(31)
2020年02月(29)
2020年01月(31)
2019年12月(31)
2019年11月(30)
2019年10月(31)
2019年09月(30)
2019年08月(31)
2019年07月(31)
2019年06月(30)
2019年05月(31)
2019年04月(30)
2019年03月(31)
2019年02月(28)
2019年01月(31)
2018年12月(31)
2018年11月(30)
2018年10月(31)
2018年09月(30)
2018年08月(31)
2018年07月(31)
2018年06月(30)
2018年05月(31)
2018年04月(30)
2018年03月(31)
2018年02月(28)
2018年01月(31)
2017年12月(31)
2017年11月(30)
2017年10月(31)
2017年09月(30)
2017年08月(31)
2017年07月(31)
2017年06月(30)
2017年05月(31)
2017年04月(30)
2017年03月(31)
2017年02月(28)
2017年01月(31)
2016年12月(31)
2016年11月(30)
2016年10月(31)
2016年09月(30)
2016年08月(31)