2020年03月31日
「単語単位のトークン化」は単語数を数えるだけ
新型コロナウイルスの感染拡大が続いていますが、皆さま影響はありますでしょうか。幸いにも私は仕事を続けています。オンサイトの仕事でしたが、周囲の方のご尽力により在宅勤務にしてもらい、仕事量も今のところは変わっていません。これからどうなるかは不安ですが、ひとまずは目の前の仕事に努めたいと思っています。
前回の記事で私がかなり混乱していた「単語単位のトークン化」ですが、コミュニティで質問させてもらったり、SDL のブログを読み直したりして、なんとなく理解できました。参考にした SDL の記事は、「翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015」と「Trados Studio 2019 – 進歩した日本語原文の解析」です。
結論としては、すみません、upLIFT がどうとか、マッチ率がどうかいうのは、ほぼ私の勘違いでした。簡単にまとめると、こんな感じです。
・単語単位のトークン化は単語数を数えるための機能
・普段この機能を使うことはないので、デフォルトのまま無効にしておけばよい
「単語単位のトークン化」は、日本語の原文について、文字数ではなく、単語数を知りたいときにのみ使う機能だそうです。「単語数」が何を意味するのかは後述しますが、原文が日本語のときに単語数が必要になることはほぼないので、実はこの機能を使用する機会もほぼありません。私はいろいろと疑って考えてしまって、この機能が upLIFT の動作に影響するのではないか、マッチ率の計算が翻訳者にとって不利になるのではないか、などと心配していましたがそうしたことはなさそうです。
単語単位のトークン化と単語数については、上記に挙げたブログの「Trados Studio 2019 – 進歩した日本語原文の解析」に説明されています。最初からこの記事を素直な気持ちで読んでいれば、こんなに混乱することはなかったと思います。が、すみません、ついつい長年の習慣で、Trados さんの情報には何か別の意味がありそうとか、文字どおりの意味のはずがないとか、そんな気持ちで私はこの記事を読んでしまいました。
例として、「WAFの役割」という日本語の単語数を考えてみます。この日本語のカウントは、以下のようになります。
@ 単語単位のトークン化を使用しない場合 --> 4 単語
A 単語単位のトークン化を使用する場合 --> 3 単語
@ の場合、「WAF」という英文字のかたまりは 1 単語と数え、それ以外は文字をそのまま数えます。Word の「単語数」と同じカウント方法です。これに対し、単語単位のトークン化を使用する A の場合は、「WAF」、「の」、「役割」で 3 単語となります。
日本語が原文の場合、料金はたいてい単語ベースではなく文字ベースです。なので、単語単位のトークン化を使用する、しないの以前に、「単語数」自体にあまり意味がありません。
私がそれでも「単語数」をちょっと気にしていたのは、過去に、@ の単語数に対して通常の文字単価を適用されたケースがあったからです。これには、さすがに強く抗議しました。文字単価は単語単価より低いことが多いので、たとえ英単語でも「WAF」という 1 単語を 1 文字のお値段で訳すことはできません。英単語をそのまま使うとしても、訳文には「WAF」と 3 文字を入力しますし、そもそもその前に「WAF」とはどういう意味なのか、英語として使っていいのか、とちゃんと翻訳作業をしています。
私が「単語単位のトークン化」の設定にここまでこだわってしまったのは、上記の「単語数」が気になっていたこととは別に、2015 から 2017 SR1 になってあいまい一致のマッチ率がずいぶん上がっているような気がしていたからです。「マッチ率が上がる」ということは、つまり「翻訳料金が下がる」ということであり、特に、あいまい一致に費やす作業量はそれなりに大きくなることが多いので、翻訳者としてはちょっと困ったなぁと思っていました。こんな偏った翻訳者目線で考えていたことが、今回の混乱の原因です。すみません。
2015 と 2017 SR1 での解析結果の差異については、最初に挙げたブログの「翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015」に詳しく説明されています。解析結果の差異は解消されているようですし、この差異の解消に「単語単位のトークン化」の設定が関係することもないようです。
「単語単位のトークン化」を使用すると解析結果は確かに変わりますが、これは、最初に説明したとおり、単語単位で解析するようになるので結果が変わるということです。繰り返しですが、原文が日本語の場合は文字ベースの料金です。なので、「単語単位のトークン化」は使用せず、そのまま文字ベースで解析するのが適切です。「どっちで解析すればマッチ率が下がるのか?」といった翻訳者目線の損得で考えてはいけませんでした。(すみません、反省します。)
というわけで今回は以上です。「単語単位のトークン化」はデフォルトで使用しない設定です。単語数を数える以外には特に意味のない設定なので、素直にそのまま放っておいてよかったのです。マッチ率を上げたり下げたりできる都合のいい設定なんて、あるわけないですよね。いろいろと混乱させてしまい、失礼しました。
Tweet
前回の記事で私がかなり混乱していた「単語単位のトークン化」ですが、コミュニティで質問させてもらったり、SDL のブログを読み直したりして、なんとなく理解できました。参考にした SDL の記事は、「翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015」と「Trados Studio 2019 – 進歩した日本語原文の解析」です。
結論としては、すみません、upLIFT がどうとか、マッチ率がどうかいうのは、ほぼ私の勘違いでした。簡単にまとめると、こんな感じです。
・単語単位のトークン化は単語数を数えるための機能
・普段この機能を使うことはないので、デフォルトのまま無効にしておけばよい
「単語単位のトークン化」は、日本語の原文について、文字数ではなく、単語数を知りたいときにのみ使う機能だそうです。「単語数」が何を意味するのかは後述しますが、原文が日本語のときに単語数が必要になることはほぼないので、実はこの機能を使用する機会もほぼありません。私はいろいろと疑って考えてしまって、この機能が upLIFT の動作に影響するのではないか、マッチ率の計算が翻訳者にとって不利になるのではないか、などと心配していましたがそうしたことはなさそうです。
日本語の単語数
単語単位のトークン化と単語数については、上記に挙げたブログの「Trados Studio 2019 – 進歩した日本語原文の解析」に説明されています。最初からこの記事を素直な気持ちで読んでいれば、こんなに混乱することはなかったと思います。が、すみません、ついつい長年の習慣で、Trados さんの情報には何か別の意味がありそうとか、文字どおりの意味のはずがないとか、そんな気持ちで私はこの記事を読んでしまいました。
例として、「WAFの役割」という日本語の単語数を考えてみます。この日本語のカウントは、以下のようになります。
@ 単語単位のトークン化を使用しない場合 --> 4 単語
A 単語単位のトークン化を使用する場合 --> 3 単語
@ の場合、「WAF」という英文字のかたまりは 1 単語と数え、それ以外は文字をそのまま数えます。Word の「単語数」と同じカウント方法です。これに対し、単語単位のトークン化を使用する A の場合は、「WAF」、「の」、「役割」で 3 単語となります。
日本語が原文の場合、料金はたいてい単語ベースではなく文字ベースです。なので、単語単位のトークン化を使用する、しないの以前に、「単語数」自体にあまり意味がありません。
私がそれでも「単語数」をちょっと気にしていたのは、過去に、@ の単語数に対して通常の文字単価を適用されたケースがあったからです。これには、さすがに強く抗議しました。文字単価は単語単価より低いことが多いので、たとえ英単語でも「WAF」という 1 単語を 1 文字のお値段で訳すことはできません。英単語をそのまま使うとしても、訳文には「WAF」と 3 文字を入力しますし、そもそもその前に「WAF」とはどういう意味なのか、英語として使っていいのか、とちゃんと翻訳作業をしています。
翻訳メモリの互換性 ― 2015 と 2017 SR1 での解析結果の差異
私が「単語単位のトークン化」の設定にここまでこだわってしまったのは、上記の「単語数」が気になっていたこととは別に、2015 から 2017 SR1 になってあいまい一致のマッチ率がずいぶん上がっているような気がしていたからです。「マッチ率が上がる」ということは、つまり「翻訳料金が下がる」ということであり、特に、あいまい一致に費やす作業量はそれなりに大きくなることが多いので、翻訳者としてはちょっと困ったなぁと思っていました。こんな偏った翻訳者目線で考えていたことが、今回の混乱の原因です。すみません。
2015 と 2017 SR1 での解析結果の差異については、最初に挙げたブログの「翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015」に詳しく説明されています。解析結果の差異は解消されているようですし、この差異の解消に「単語単位のトークン化」の設定が関係することもないようです。
「単語単位のトークン化」を使用すると解析結果は確かに変わりますが、これは、最初に説明したとおり、単語単位で解析するようになるので結果が変わるということです。繰り返しですが、原文が日本語の場合は文字ベースの料金です。なので、「単語単位のトークン化」は使用せず、そのまま文字ベースで解析するのが適切です。「どっちで解析すればマッチ率が下がるのか?」といった翻訳者目線の損得で考えてはいけませんでした。(すみません、反省します。)
というわけで今回は以上です。「単語単位のトークン化」はデフォルトで使用しない設定です。単語数を数える以外には特に意味のない設定なので、素直にそのまま放っておいてよかったのです。マッチ率を上げたり下げたりできる都合のいい設定なんて、あるわけないですよね。いろいろと混乱させてしまい、失礼しました。
Tweet
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
https://fanblogs.jp/tb/9735765
※ブログオーナーが承認したトラックバックのみ表示されます。
この記事へのトラックバック