アフィリエイト広告を利用しています
最新記事
にほんブログ村 英語ブログ 英語 通訳・翻訳へ
にほんブログ村
 
翻訳ランキング
  翻訳ブログランキング参加中
翻訳ブログ人気ランキング


タグ
検索
ご意見・ご感想

ご意見、ご感想、ご質問をお待ちしております。
こちらから、どうぞお気軽に!

記事一覧
◆パッケージについて
 作業前に内容を確認する
 作業前に設定を変更する
 メモリをアップグレードする (2017 SR1)
 格納されているファイルにアクセスする

◆Trados の機能
 表示フィルタ・高度な表示フィルタ
   2021 の表示フィルタ
   タグの中の検索
   プラグイン
   プラグイン for 2019
   変更履歴
   すべてのコンテンツ
 検証機能
   全般の設定
   QA Checker
 QuickInsert
 印刷プレビュー
 メモリのフィールド
 ファイルの解析 @
 ファイルの解析 A
 AutoSggest
   ATOK との競合
   プラグイン
 ショートカット キー
   設定方法
   便利なキー
   高度な表示フィルタ
 変更履歴
 繰り返しの自動反映
 upLIFT テクノロジー
   フラグメント一致
   あいまい一致の自動修正
   単語数のカウント
 自動置換 > 単位
 ジャンプ
 用語認識
 MultiTerm
 変数リスト

◆Trados のバージョン・エディション
 2021 SR2 CU9
 2021 の新機能
 プラグインとアプリの 2021 対応 (2020/08)
 2017 SR1 の最近のバグ (2020/05)
 プラグインとアプリの 2019 対応 (2019/02)
 2019 の新機能
 Starter エディション
 2017 SR1 の新機能
 メモリのアップグレード (2017 SR1)

◆プラグインとアプリ
 2024 対応 (2024/08)
 フィルタで繰り返しを除外
 原文の英数字を訳文にコピー
 パッケージの中身を一覧表示
 コメントを Excel にエクスポート
 選択箇所の検索結果を別画面で一覧表示
 メモリをアップグレード
 用語集を変換
 コメントや変更履歴のユーザー名を変更
 sdlxliff ファイルを Excel にエクスポート
 Community Advanced Display Filter for 2019
 Community Advanced Display Filter
 Regex Match AutoSuggest Provider
 PackageReader
 Comment View Plugin
 SegmentSearcher
 TM Lifting
 Glossary Converter
 SDL Batch Anonymizer
 Export to Excel

◆トラブルシューティング
 QuickInsert の設定が表示されない
 QuickInsert が動かない
 訳文生成できない
   分節の結合
   コメント
   表示フィルタのハイライト
   ハイパーリンク タグ
 メモリがヒットしてこない
   完全一致が登録されていない
   検索オプション
   言語ペア
   サーバー TM
   Trados のバージョン
   空メモリから作業を始めた場合
   単語単位のトークン化
 「TM はアップグレードが必要」が消えない
 検証の除外設定が効かない
 エディタの動きが遅い
 エディタが落ちる
 ファイルの解析が終わらない
 エディタ上のフォントが変わらない
 用語が認識されない
 同じ用語が何回も表示される
 パッケージを正常に開けない

◆翻訳作業に役立つ Tips
 タグの中の文字を検索する
 複数の分節に分かれている場合の処理
 メモリに登録されるユーザー名を変える
 自分の訳文用のメモリを作る
 Trados の設定を変える
 パッケージを別プロジェクトとして開き直す
 訳文を表示する方法
   印刷プレビュー
   訳文のみで保存
   訳文の表示
 単語数・文字数のカウント
   解析レポート @
   解析レポート A
   単語単位のトークン化
 ショートカット キーを設定する
   設定方法
   便利なキー
 変更履歴を記録する
 繰り返しを自動入力する
 エディタ上のフォントを変える
 1 つの原文に複数の訳文を登録する
 単位記号の前にスペースを入れる
 英日と日英で同じメモリを使う

◆Trados 以外のツール
 CAT ツール
   Memsource
   memoQ
 その他のツール
   ATOK
   Xbench
    変更履歴
    使い方【前編】
    使い方【後編】
   QA Distiller
   AutoHotKey
   WinMerge
   Visual Studio Code
   Vale
最新コメント
プロフィール
さくらさんの画像

昔は「Trados さん、頑張って!」とお祈りしながら訳文生成していませんでしたか? 今も、たまにそんな気分になるときがあります。Trados って本当にわからないことばかりです。特に、日本語の情報は少ないですよね。いくら翻訳者とはいえ、日本語の情報が欲しいのです。Trados ユーザーの方々といろいろ情報交換できたらと思っています。




広告

posted by fanblog

2020年03月31日

「単語単位のトークン化」は単語数を数えるだけ

新型コロナウイルスの感染拡大が続いていますが、皆さま影響はありますでしょうか。幸いにも私は仕事を続けています。オンサイトの仕事でしたが、周囲の方のご尽力により在宅勤務にしてもらい、仕事量も今のところは変わっていません。これからどうなるかは不安ですが、ひとまずは目の前の仕事に努めたいと思っています。


前回の記事で私がかなり混乱していた「単語単位のトークン化」ですが、コミュニティで質問させてもらったり、SDL のブログを読み直したりして、なんとなく理解できました。参考にした SDL の記事は、「翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015」と「Trados Studio 2019 – 進歩した日本語原文の解析」です。


32-10.png


結論としては、すみません、upLIFT がどうとか、マッチ率がどうかいうのは、ほぼ私の勘違いでした。簡単にまとめると、こんな感じです。


・単語単位のトークン化は単語数を数えるための機能

・普段この機能を使うことはないので、デフォルトのまま無効にしておけばよい



「単語単位のトークン化」は、日本語の原文について、文字数ではなく、単語数を知りたいときにのみ使う機能だそうです。「単語数」が何を意味するのかは後述しますが、原文が日本語のときに単語数が必要になることはほぼないので、実はこの機能を使用する機会もほぼありません。私はいろいろと疑って考えてしまって、この機能が upLIFT の動作に影響するのではないか、マッチ率の計算が翻訳者にとって不利になるのではないか、などと心配していましたがそうしたことはなさそうです。


日本語の単語数


単語単位のトークン化と単語数については、上記に挙げたブログの「Trados Studio 2019 – 進歩した日本語原文の解析」に説明されています。最初からこの記事を素直な気持ちで読んでいれば、こんなに混乱することはなかったと思います。が、すみません、ついつい長年の習慣で、Trados さんの情報には何か別の意味がありそうとか、文字どおりの意味のはずがないとか、そんな気持ちで私はこの記事を読んでしまいました。

例として、「WAFの役割」という日本語の単語数を考えてみます。この日本語のカウントは、以下のようになります。

  @ 単語単位のトークン化を使用しない場合 --> 4 単語
  A 単語単位のトークン化を使用する場合 --> 3 単語

@ の場合、「WAF」という英文字のかたまりは 1 単語と数え、それ以外は文字をそのまま数えます。Word の「単語数」と同じカウント方法です。これに対し、単語単位のトークン化を使用する A の場合は、「WAF」、「」、「役割」で 3 単語となります。

日本語が原文の場合、料金はたいてい単語ベースではなく文字ベースです。なので、単語単位のトークン化を使用する、しないの以前に、「単語数」自体にあまり意味がありません。

私がそれでも「単語数」をちょっと気にしていたのは、過去に、@ の単語数に対して通常の文字単価を適用されたケースがあったからです。これには、さすがに強く抗議しました。文字単価は単語単価より低いことが多いので、たとえ英単語でも「WAF」という 1 単語を 1 文字のお値段で訳すことはできません。英単語をそのまま使うとしても、訳文には「WAF」と 3 文字を入力しますし、そもそもその前に「WAF」とはどういう意味なのか、英語として使っていいのか、とちゃんと翻訳作業をしています。


翻訳メモリの互換性 ― 2015 と 2017 SR1 での解析結果の差異


私が「単語単位のトークン化」の設定にここまでこだわってしまったのは、上記の「単語数」が気になっていたこととは別に、2015 から 2017 SR1 になってあいまい一致のマッチ率がずいぶん上がっているような気がしていたからです。「マッチ率が上がる」ということは、つまり「翻訳料金が下がる」ということであり、特に、あいまい一致に費やす作業量はそれなりに大きくなることが多いので、翻訳者としてはちょっと困ったなぁと思っていました。こんな偏った翻訳者目線で考えていたことが、今回の混乱の原因です。すみません。

2015 と 2017 SR1 での解析結果の差異については、最初に挙げたブログの「翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015」に詳しく説明されています。解析結果の差異は解消されているようですし、この差異の解消に「単語単位のトークン化」の設定が関係することもないようです。

「単語単位のトークン化」を使用すると解析結果は確かに変わりますが、これは、最初に説明したとおり、単語単位で解析するようになるので結果が変わるということです。繰り返しですが、原文が日本語の場合は文字ベースの料金です。なので、「単語単位のトークン化」は使用せず、そのまま文字ベースで解析するのが適切です。「どっちで解析すればマッチ率が下がるのか?」といった翻訳者目線の損得で考えてはいけませんでした。(すみません、反省します。)


というわけで今回は以上です。「単語単位のトークン化」はデフォルトで使用しない設定です。単語数を数える以外には特に意味のない設定なので、素直にそのまま放っておいてよかったのです。マッチ率を上げたり下げたりできる都合のいい設定なんて、あるわけないですよね。いろいろと混乱させてしまい、失礼しました。




  




この記事へのコメント
コメントを書く

お名前:

メールアドレス:


ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバックURL
https://fanblogs.jp/tb/9735765
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
×

この広告は30日以上新しい記事の更新がないブログに表示されております。