2024年04月30日
ネットの謎文字コード訂正.mac
私は秀丸を愛用しています。
以下のマクロを作ったので、後日の自分の為、ここに晒しておこうと思います。
(文字コードとか勝手に変えられてしまわないよね?)
例えば気になったネット記事を保存しておきたいと思うことがある。今回気になったのはこの記事。↓
https://toyokeizai.net/articles/-/746752?page=1
この記事内容はまぁ置いといて、いつもの通り、PRINT EDIT WE というアドオンを用いて、不用な広告を除外して、目的の記事だけPDFで保存出来ました。
しかし、その記事で検索をかけてもヒットしない場合があります。
例えばこの記事を書いた「舟津昌平」という人の「舟」の字は――、
コピペしてテキストデータに表示させると、表示がおかしい。
それで、「舟」の字でPDF上で検索をかけても、「そんな文字はありません」と言われる
これは要するに、見た目が一緒でも文字コード上では別文字になっているからです。
ブラウザ上ではよろしいように表示されてますから気がつきませんが、保存して資料とし、後日検索してヒットしないのでは、困ります。それになんか、わたし、こういうの許せませんw
と言う訳で、こうした異文字?を置換する秀丸エディタのマクロを作りました。作りは単純ですが、この文字を集めたところを、褒めて欲しいなぁ(^_^)
後日、更に異文字を見つけたらUPDATEしていくつもりです。
さぁそういうわけで、作ったマクロが以下です。↓
----------<キリトリ線>-----------------------------
//ネットニュースのコピペの際、中国フォントなのか、独自のコードを使って表記している文字列データを、日本の当該コードに置き換えるためのマクロ。見つけた分のみ。完ぺきではない;
//見つけたのは⺠⻄⻑⻭⼀⼆⼈⼊⼒⼟⼤⼥⼦⼭⼯⼰⼼⼿⽀⽂⽅⽇⽉⽋⽐⽒⽔⽕⽚⽢⽣⽤⽯⽰⽶⾁⾂⾃⾅⾏⾒⾔⾖⾙⾚⾛⾜⾝⾟⾥⾦⾯⾰⾷⾸⾺⾼⿂⿃⿇⿊⿐⾈⼩⽭⽌⽴;
//これらの文字コードを調べて、検索文字列に代入して全置換をしている。なお、このマクロファイルはUTF-16形式で保存しないと秀丸は理解してくれない。;
replaceall "\u2EA0" , "民" , regular, nohilight;
replaceall "\u2EC4" , "西" , regular, nohilight;
replaceall "\u2ED1" , "長" , regular, nohilight;
replaceall "\u2EED" , "歯" , regular, nohilight;
replaceall "\u2F00" , "一" , regular, nohilight;
replaceall "\u2F06" , "二" , regular, nohilight;
replaceall "\u2F08" , "人" , regular, nohilight;
replaceall "\u2F0A" , "入" , regular, nohilight;
replaceall "\u2F12" , "力" , regular, nohilight;
replaceall "\u2F1F" , "土" , regular, nohilight;
replaceall "\u2F24" , "大" , regular, nohilight;
replaceall "\u2F25" , "女" , regular, nohilight;
replaceall "\u2F26" , "子" , regular, nohilight;
replaceall "\u2F2D" , "山" , regular, nohilight;
replaceall "\u2F2F" , "工" , regular, nohilight;
replaceall "\u2F30" , "己" , regular, nohilight;
replaceall "\u2F3C" , "心" , regular, nohilight;
replaceall "\u2F3F" , "手" , regular, nohilight;
replaceall "\u2F40" , "支" , regular, nohilight;
replaceall "\u2F42" , "文" , regular, nohilight;
replaceall "\u2F45" , "方" , regular, nohilight;
replaceall "\u2F47" , "日" , regular, nohilight;
replaceall "\u2F49" , "月" , regular, nohilight;
replaceall "\u2F4B" , "欠" , regular, nohilight;
replaceall "\u2F50" , "比" , regular, nohilight;
replaceall "\u2F52" , "氏" , regular, nohilight;
replaceall "\u2F54" , "水" , regular, nohilight;
replaceall "\u2F55" , "火" , regular, nohilight;
replaceall "\u2F5A" , "片" , regular, nohilight;
replaceall "\u2F62" , "甘" , regular, nohilight;
replaceall "\u2F63" , "生" , regular, nohilight;
replaceall "\u2F64" , "用" , regular, nohilight;
replaceall "\u2F6F" , "石" , regular, nohilight;
replaceall "\u2F70" , "示" , regular, nohilight;
replaceall "\u2F76" , "米" , regular, nohilight;
replaceall "\u2F81" , "肉" , regular, nohilight;
replaceall "\u2F82" , "臣" , regular, nohilight;
replaceall "\u2F83" , "自" , regular, nohilight;
replaceall "\u2F85" , "臼" , regular, nohilight;
replaceall "\u2F8F" , "行" , regular, nohilight;
replaceall "\u2F92" , "見" , regular, nohilight;
replaceall "\u2F94" , "言" , regular, nohilight;
replaceall "\u2F96" , "豆" , regular, nohilight;
replaceall "\u2F99" , "貝" , regular, nohilight;
replaceall "\u2F9A" , "赤" , regular, nohilight;
replaceall "\u2F9B" , "走" , regular, nohilight;
replaceall "\u2F9C" , "足" , regular, nohilight;
replaceall "\u2F9D" , "身" , regular, nohilight;
replaceall "\u2F9F" , "辛" , regular, nohilight;
replaceall "\u2FA5" , "里" , regular, nohilight;
replaceall "\u2FA6" , "金" , regular, nohilight;
replaceall "\u2FAF" , "面" , regular, nohilight;
replaceall "\u2FB0" , "革" , regular, nohilight;
replaceall "\u2FB7" , "食" , regular, nohilight;
replaceall "\u2FB8" , "首" , regular, nohilight;
replaceall "\u2FBA" , "馬" , regular, nohilight;
replaceall "\u2FBC" , "高" , regular, nohilight;
replaceall "\u2FC2" , "魚" , regular, nohilight;
replaceall "\u2FC3" , "鳥" , regular, nohilight;
replaceall "\u2FC7" , "麻" , regular, nohilight;
replaceall "\u2FCA" , "黒" , regular, nohilight;
replaceall "\u2FD0" , "鼻" , regular, nohilight;
replaceall "\u2F88" , "舟" , regular, nohilight;
replaceall "\u2F29" , "小" , regular, nohilight;
replaceall "\u2F6D" , "矛" , regular, nohilight;
replaceall "\u2F4C" , "止" , regular, nohilight;
replaceall "\u2F74" , "立" , regular, nohilight;
----------<キリトリ線>-----------------------------
以下のマクロを作ったので、後日の自分の為、ここに晒しておこうと思います。
(文字コードとか勝手に変えられてしまわないよね?)
例えば気になったネット記事を保存しておきたいと思うことがある。今回気になったのはこの記事。↓
https://toyokeizai.net/articles/-/746752?page=1
この記事内容はまぁ置いといて、いつもの通り、PRINT EDIT WE というアドオンを用いて、不用な広告を除外して、目的の記事だけPDFで保存出来ました。
しかし、その記事で検索をかけてもヒットしない場合があります。
例えばこの記事を書いた「舟津昌平」という人の「舟」の字は――、
コピペしてテキストデータに表示させると、表示がおかしい。
それで、「舟」の字でPDF上で検索をかけても、「そんな文字はありません」と言われる
これは要するに、見た目が一緒でも文字コード上では別文字になっているからです。
ブラウザ上ではよろしいように表示されてますから気がつきませんが、保存して資料とし、後日検索してヒットしないのでは、困ります。それになんか、わたし、こういうの許せませんw
と言う訳で、こうした異文字?を置換する秀丸エディタのマクロを作りました。作りは単純ですが、この文字を集めたところを、褒めて欲しいなぁ(^_^)
後日、更に異文字を見つけたらUPDATEしていくつもりです。
さぁそういうわけで、作ったマクロが以下です。↓
----------<キリトリ線>-----------------------------
//ネットニュースのコピペの際、中国フォントなのか、独自のコードを使って表記している文字列データを、日本の当該コードに置き換えるためのマクロ。見つけた分のみ。完ぺきではない;
//見つけたのは⺠⻄⻑⻭⼀⼆⼈⼊⼒⼟⼤⼥⼦⼭⼯⼰⼼⼿⽀⽂⽅⽇⽉⽋⽐⽒⽔⽕⽚⽢⽣⽤⽯⽰⽶⾁⾂⾃⾅⾏⾒⾔⾖⾙⾚⾛⾜⾝⾟⾥⾦⾯⾰⾷⾸⾺⾼⿂⿃⿇⿊⿐⾈⼩⽭⽌⽴;
//これらの文字コードを調べて、検索文字列に代入して全置換をしている。なお、このマクロファイルはUTF-16形式で保存しないと秀丸は理解してくれない。;
replaceall "\u2EA0" , "民" , regular, nohilight;
replaceall "\u2EC4" , "西" , regular, nohilight;
replaceall "\u2ED1" , "長" , regular, nohilight;
replaceall "\u2EED" , "歯" , regular, nohilight;
replaceall "\u2F00" , "一" , regular, nohilight;
replaceall "\u2F06" , "二" , regular, nohilight;
replaceall "\u2F08" , "人" , regular, nohilight;
replaceall "\u2F0A" , "入" , regular, nohilight;
replaceall "\u2F12" , "力" , regular, nohilight;
replaceall "\u2F1F" , "土" , regular, nohilight;
replaceall "\u2F24" , "大" , regular, nohilight;
replaceall "\u2F25" , "女" , regular, nohilight;
replaceall "\u2F26" , "子" , regular, nohilight;
replaceall "\u2F2D" , "山" , regular, nohilight;
replaceall "\u2F2F" , "工" , regular, nohilight;
replaceall "\u2F30" , "己" , regular, nohilight;
replaceall "\u2F3C" , "心" , regular, nohilight;
replaceall "\u2F3F" , "手" , regular, nohilight;
replaceall "\u2F40" , "支" , regular, nohilight;
replaceall "\u2F42" , "文" , regular, nohilight;
replaceall "\u2F45" , "方" , regular, nohilight;
replaceall "\u2F47" , "日" , regular, nohilight;
replaceall "\u2F49" , "月" , regular, nohilight;
replaceall "\u2F4B" , "欠" , regular, nohilight;
replaceall "\u2F50" , "比" , regular, nohilight;
replaceall "\u2F52" , "氏" , regular, nohilight;
replaceall "\u2F54" , "水" , regular, nohilight;
replaceall "\u2F55" , "火" , regular, nohilight;
replaceall "\u2F5A" , "片" , regular, nohilight;
replaceall "\u2F62" , "甘" , regular, nohilight;
replaceall "\u2F63" , "生" , regular, nohilight;
replaceall "\u2F64" , "用" , regular, nohilight;
replaceall "\u2F6F" , "石" , regular, nohilight;
replaceall "\u2F70" , "示" , regular, nohilight;
replaceall "\u2F76" , "米" , regular, nohilight;
replaceall "\u2F81" , "肉" , regular, nohilight;
replaceall "\u2F82" , "臣" , regular, nohilight;
replaceall "\u2F83" , "自" , regular, nohilight;
replaceall "\u2F85" , "臼" , regular, nohilight;
replaceall "\u2F8F" , "行" , regular, nohilight;
replaceall "\u2F92" , "見" , regular, nohilight;
replaceall "\u2F94" , "言" , regular, nohilight;
replaceall "\u2F96" , "豆" , regular, nohilight;
replaceall "\u2F99" , "貝" , regular, nohilight;
replaceall "\u2F9A" , "赤" , regular, nohilight;
replaceall "\u2F9B" , "走" , regular, nohilight;
replaceall "\u2F9C" , "足" , regular, nohilight;
replaceall "\u2F9D" , "身" , regular, nohilight;
replaceall "\u2F9F" , "辛" , regular, nohilight;
replaceall "\u2FA5" , "里" , regular, nohilight;
replaceall "\u2FA6" , "金" , regular, nohilight;
replaceall "\u2FAF" , "面" , regular, nohilight;
replaceall "\u2FB0" , "革" , regular, nohilight;
replaceall "\u2FB7" , "食" , regular, nohilight;
replaceall "\u2FB8" , "首" , regular, nohilight;
replaceall "\u2FBA" , "馬" , regular, nohilight;
replaceall "\u2FBC" , "高" , regular, nohilight;
replaceall "\u2FC2" , "魚" , regular, nohilight;
replaceall "\u2FC3" , "鳥" , regular, nohilight;
replaceall "\u2FC7" , "麻" , regular, nohilight;
replaceall "\u2FCA" , "黒" , regular, nohilight;
replaceall "\u2FD0" , "鼻" , regular, nohilight;
replaceall "\u2F88" , "舟" , regular, nohilight;
replaceall "\u2F29" , "小" , regular, nohilight;
replaceall "\u2F6D" , "矛" , regular, nohilight;
replaceall "\u2F4C" , "止" , regular, nohilight;
replaceall "\u2F74" , "立" , regular, nohilight;
----------<キリトリ線>-----------------------------
【このカテゴリーの最新記事】
-
no image
-
no image
-
no image
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
https://fanblogs.jp/tb/12530699
この記事へのトラックバック