「単語単位のトークン化」は単語数を数えるだけ: Trados さん、頑張って！

にほんブログ村

翻訳ランキング

翻訳ブログ人気ランキング

タグ

2017 upLIFT テクノロジーアプリトラブルシューティングバージョンパッケージフラグメント一致プラグインプレビュープロジェクトの設定メモリ高度な表示フィルタ

検索

ご意見・ご感想

ご意見、ご感想、ご質問をお待ちしております。
こちらから、どうぞお気軽に！

記事一覧

◆パッケージについて
　作業前に内容を確認する
　作業前に設定を変更する
　メモリをアップグレードする (2017 SR1)
　格納されているファイルにアクセスする

◆Trados の機能
　表示フィルタ・高度な表示フィルタ
　　　2021 の表示フィルタ
　　　タグの中の検索
　　　プラグイン
　　　プラグイン for 2019
　　　変更履歴
　　　すべてのコンテンツ
　検証機能
　　　全般の設定
　　　QA Checker
　QuickInsert
　印刷プレビュー
　メモリのフィールド
　ファイルの解析 ①
　ファイルの解析 ②
　AutoSggest
　　　ATOK との競合
　　　プラグイン
　ショートカットキー
　　　設定方法
　　　便利なキー
　　　高度な表示フィルタ
　変更履歴
　繰り返しの自動反映
　upLIFT テクノロジー
　　　フラグメント一致
　　　あいまい一致の自動修正
　　　単語数のカウント
　自動置換 > 単位
　ジャンプ
　用語認識
　MultiTerm
　変数リスト

◆Trados のバージョン・エディション
　2021 SR2 CU9
　2021 の新機能
　プラグインとアプリの 2021 対応 (2020/08)
　2017 SR1 の最近のバグ (2020/05)
　プラグインとアプリの 2019 対応 (2019/02)
　2019 の新機能
　Starter エディション
　2017 SR1 の新機能
　メモリのアップグレード (2017 SR1)

◆プラグインとアプリ
　2024 対応 (2024/08)
　フィルタで繰り返しを除外
　原文の英数字を訳文にコピー
　パッケージの中身を一覧表示
　コメントを Excel にエクスポート
　選択箇所の検索結果を別画面で一覧表示
　メモリをアップグレード
　用語集を変換
　コメントや変更履歴のユーザー名を変更
　sdlxliff ファイルを Excel にエクスポート
　Community Advanced Display Filter for 2019
　Community Advanced Display Filter
　Regex Match AutoSuggest Provider
　PackageReader
　Comment View Plugin
　SegmentSearcher
　TM Lifting
　Glossary Converter
　SDL Batch Anonymizer
　Export to Excel

◆トラブルシューティング
　QuickInsert の設定が表示されない
　QuickInsert が動かない
　訳文生成できない
　　　分節の結合
　　　コメント
　　　表示フィルタのハイライト
　　　ハイパーリンクタグ
　メモリがヒットしてこない
　　　完全一致が登録されていない
　　　検索オプション
　　　言語ペア
　　　サーバー TM
　　　Trados のバージョン
　　　空メモリから作業を始めた場合
　　　単語単位のトークン化
　「TM はアップグレードが必要」が消えない
　検証の除外設定が効かない
　エディタの動きが遅い
　エディタが落ちる
　ファイルの解析が終わらない
　エディタ上のフォントが変わらない
　用語が認識されない
　同じ用語が何回も表示される
　パッケージを正常に開けない

◆翻訳作業に役立つ Tips
　タグの中の文字を検索する
　複数の分節に分かれている場合の処理
　メモリに登録されるユーザー名を変える
　自分の訳文用のメモリを作る
　Trados の設定を変える
　パッケージを別プロジェクトとして開き直す
　訳文を表示する方法
　　　印刷プレビュー
　　　訳文のみで保存
　　　訳文の表示
　単語数・文字数のカウント
　　　解析レポート ①
　　　解析レポート ②
　　　単語単位のトークン化
　ショートカットキーを設定する
　　　設定方法
　　　便利なキー
　変更履歴を記録する
　繰り返しを自動入力する
　エディタ上のフォントを変える
　1 つの原文に複数の訳文を登録する
　単位記号の前にスペースを入れる
　英日と日英で同じメモリを使う

◆Trados 以外のツール
　CAT ツール
　　　Memsource
　　　memoQ
　その他のツール
　　　ATOK
　　　Xbench
　　　　変更履歴
　　　　使い方【前編】
　　　　使い方【後編】
　　　QA Distiller
　　　AutoHotKey
　　　WinMerge
　　　Visual Studio Code
　　　Vale

2020年03月31日

「単語単位のトークン化」は単語数を数えるだけ

新型コロナウイルスの感染拡大が続いていますが、皆さま影響はありますでしょうか。幸いにも私は仕事を続けています。オンサイトの仕事でしたが、周囲の方のご尽力により在宅勤務にしてもらい、仕事量も今のところは変わっていません。これからどうなるかは不安ですが、ひとまずは目の前の仕事に努めたいと思っています。

前回の記事で私がかなり混乱していた「単語単位のトークン化」ですが、コミュニティで質問させてもらったり、SDL のブログを読み直したりして、なんとなく理解できました。参考にした SDL の記事は、「翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015」と「Trados Studio 2019 – 進歩した日本語原文の解析」です。

結論としては、すみません、upLIFT がどうとか、マッチ率がどうかいうのは、ほぼ私の勘違いでした。簡単にまとめると、こんな感じです。

・単語単位のトークン化は単語数を数えるための機能

・普段この機能を使うことはないので、デフォルトのまま無効にしておけばよい

「単語単位のトークン化」は、日本語の原文について、文字数ではなく、単語数を知りたいときにのみ使う機能だそうです。「単語数」が何を意味するのかは後述しますが、原文が日本語のときに単語数が必要になることはほぼないので、実はこの機能を使用する機会もほぼありません。私はいろいろと疑って考えてしまって、この機能が upLIFT の動作に影響するのではないか、マッチ率の計算が翻訳者にとって不利になるのではないか、などと心配していましたがそうしたことはなさそうです。

日本語の単語数

単語単位のトークン化と単語数については、上記に挙げたブログの「Trados Studio 2019 – 進歩した日本語原文の解析」に説明されています。最初からこの記事を素直な気持ちで読んでいれば、こんなに混乱することはなかったと思います。が、すみません、ついつい長年の習慣で、Trados さんの情報には何か別の意味がありそうとか、文字どおりの意味のはずがないとか、そんな気持ちで私はこの記事を読んでしまいました。

例として、「WAFの役割」という日本語の単語数を考えてみます。この日本語のカウントは、以下のようになります。

　　① 単語単位のトークン化を使用しない場合 --> 4 単語
　　② 単語単位のトークン化を使用する場合 --> 3 単語

① の場合、「WAF」という英文字のかたまりは 1 単語と数え、それ以外は文字をそのまま数えます。Word の「単語数」と同じカウント方法です。これに対し、単語単位のトークン化を使用する ② の場合は、「WAF」、「の」、「役割」で 3 単語となります。

日本語が原文の場合、料金はたいてい単語ベースではなく文字ベースです。なので、単語単位のトークン化を使用する、しないの以前に、「単語数」自体にあまり意味がありません。

私がそれでも「単語数」をちょっと気にしていたのは、過去に、① の単語数に対して通常の文字単価を適用されたケースがあったからです。これには、さすがに強く抗議しました。文字単価は単語単価より低いことが多いので、たとえ英単語でも「WAF」という 1 単語を 1 文字のお値段で訳すことはできません。英単語をそのまま使うとしても、訳文には「WAF」と 3 文字を入力しますし、そもそもその前に「WAF」とはどういう意味なのか、英語として使っていいのか、とちゃんと翻訳作業をしています。

翻訳メモリの互換性 ― 2015 と 2017 SR1 での解析結果の差異

私が「単語単位のトークン化」の設定にここまでこだわってしまったのは、上記の「単語数」が気になっていたこととは別に、2015 から 2017 SR1 になってあいまい一致のマッチ率がずいぶん上がっているような気がしていたからです。「マッチ率が上がる」ということは、つまり「翻訳料金が下がる」ということであり、特に、あいまい一致に費やす作業量はそれなりに大きくなることが多いので、翻訳者としてはちょっと困ったなぁと思っていました。こんな偏った翻訳者目線で考えていたことが、今回の混乱の原因です。すみません。

2015 と 2017 SR1 での解析結果の差異については、最初に挙げたブログの「翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015」に詳しく説明されています。解析結果の差異は解消されているようですし、この差異の解消に「単語単位のトークン化」の設定が関係することもないようです。

「単語単位のトークン化」を使用すると解析結果は確かに変わりますが、これは、最初に説明したとおり、単語単位で解析するようになるので結果が変わるということです。繰り返しですが、原文が日本語の場合は文字ベースの料金です。なので、「単語単位のトークン化」は使用せず、そのまま文字ベースで解析するのが適切です。「どっちで解析すればマッチ率が下がるのか？」といった翻訳者目線の損得で考えてはいけませんでした。(すみません、反省します。)

というわけで今回は以上です。「単語単位のトークン化」はデフォルトで使用しない設定です。単語数を数える以外には特に意味のない設定なので、素直にそのまま放っておいてよかったのです。マッチ率を上げたり下げたりできる都合のいい設定なんて、あるわけないですよね。いろいろと混乱させてしまい、失礼しました。

タグ：単語単位のトークン化 upLIFT テクノロジー原文がアジア言語の場合に単語単位のトークン化を使用する 2017 SR1 単語数文字数カウント

posted by さくら at 09:28 | Comment(0) | TrackBack(0) | SDL Trados Studio

この記事へのコメント

コメントを書く

この記事へのトラックバックURL
https://fanblogs.jp/tb/9735765
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック