Trados さん、頑張って！

最新記事

・IR 文書の前期上書き翻訳を Trados で頑張る
・Trados をエディターとして使うために
・【解決！】テンキーから数字の入力ができない
・私が遭遇している問題いろいろ
・Xbench と TBX ファイル
・Trados 質問会の補足
・安易にバイリンガル Excel を使っていませんか

IT 分野の翻訳をしていて見かけた日本語の用例採集をしています。どうぞこちらのブログもご覧ください。

にほんブログ村

翻訳ランキング

翻訳ブログ人気ランキング

タグ

2017 upLIFT テクノロジーアプリトラブルシューティングバージョンパッケージフラグメント一致プラグインプレビュープロジェクトの設定メモリ高度な表示フィルタ

検索

ご意見・ご感想

ご意見、ご感想、ご質問をお待ちしております。
こちらから、どうぞお気軽に！

記事一覧

◆パッケージについて
　作業前に内容を確認する
　作業前に設定を変更する
　メモリをアップグレードする (2017 SR1)
　格納されているファイルにアクセスする

◆Trados の機能
　表示フィルタ・高度な表示フィルタ
　　　2021 の表示フィルタ
　　　タグの中の検索
　　　プラグイン
　　　プラグイン for 2019
　　　変更履歴
　　　すべてのコンテンツ
　検証機能
　　　全般の設定
　　　QA Checker
　QuickInsert
　印刷プレビュー
　メモリのフィールド
　ファイルの解析 ①
　ファイルの解析 ②
　AutoSggest
　　　ATOK との競合
　　　プラグイン
　ショートカットキー
　　　設定方法
　　　便利なキー
　　　高度な表示フィルタ
　変更履歴
　繰り返しの自動反映
　upLIFT テクノロジー
　　　フラグメント一致
　　　あいまい一致の自動修正
　　　単語数のカウント
　自動置換 > 単位
　ジャンプ
　用語認識
　MultiTerm
　変数リスト

◆Trados のバージョン・エディション
　2021 SR2 CU9
　2021 の新機能
　プラグインとアプリの 2021 対応 (2020/08)
　2017 SR1 の最近のバグ (2020/05)
　プラグインとアプリの 2019 対応 (2019/02)
　2019 の新機能
　Starter エディション
　2017 SR1 の新機能
　メモリのアップグレード (2017 SR1)

◆プラグインとアプリ
　2021 対応 (2020/08)
　2019 対応 (2019/02)
　フィルタで繰り返しを除外
　原文の英数字を訳文にコピー
　パッケージの中身を一覧表示
　コメントを Excel にエクスポート
　選択箇所の検索結果を別画面で一覧表示
　メモリをアップグレード
　用語集を変換
　コメントや変更履歴のユーザー名を変更
　sdlxliff ファイルを Excel にエクスポート
　Community Advanced Display Filter for 2019
　Community Advanced Display Filter
　Regex Match AutoSuggest Provider
　PackageReader
　Comment View Plugin
　SegmentSearcher
　TM Lifting
　Glossary Converter
　SDL Batch Anonymizer
　Export to Excel

◆トラブルシューティング
　QuickInsert の設定が表示されない
　QuickInsert が動かない
　訳文生成できない
　　　分節の結合
　　　コメント
　　　表示フィルタのハイライト
　　　ハイパーリンクタグ
　メモリがヒットしてこない
　　　完全一致が登録されていない
　　　検索オプション
　　　言語ペア
　　　サーバー TM
　　　Trados のバージョン
　　　空メモリから作業を始めた場合
　　　単語単位のトークン化
　「TM はアップグレードが必要」が消えない
　検証の除外設定が効かない
　エディタの動きが遅い
　エディタが落ちる
　ファイルの解析が終わらない
　エディタ上のフォントが変わらない
　用語が認識されない
　同じ用語が何回も表示される
　パッケージを正常に開けない

◆翻訳作業に役立つ Tips
　タグの中の文字を検索する
　複数の分節に分かれている場合の処理
　メモリに登録されるユーザー名を変える
　自分の訳文用のメモリを作る
　Trados の設定を変える
　パッケージを別プロジェクトとして開き直す
　訳文を表示する方法
　　　印刷プレビュー
　　　訳文のみで保存
　　　訳文の表示
　単語数・文字数のカウント
　　　解析レポート ①
　　　解析レポート ②
　　　単語単位のトークン化
　ショートカットキーを設定する
　　　設定方法
　　　便利なキー
　変更履歴を記録する
　繰り返しを自動入力する
　エディタ上のフォントを変える
　1 つの原文に複数の訳文を登録する
　単位記号の前にスペースを入れる
　英日と日英で同じメモリを使う

◆Trados 以外のツール
　CAT ツール
　　　Memsource
　　　memoQ
　その他のツール
　　　ATOK
　　　Xbench
　　　　変更履歴
　　　　使い方【前編】
　　　　使い方【後編】
　　　QA Distiller
　　　AutoHotKey
　　　WinMerge
　　　Visual Studio Code
　　　Vale

2019年12月11日

用語ベースが巨大すぎる！

先日のお仕事で Trados のプロジェクトに設定されていた用語ベースが、なんと 34 万語もありました。普通の「用語集」としてはあり得ない語数です。なぜこんなことになっていたかというと、UI のデータがそのまま用語ベースに入っていたからでした。こうした用語ベースは、翻訳者としては扱いにちょっと困ります。

UI のデータは、たいてい、画面上の要素 1 個につきレコードが 1 行存在する形になっています。たとえば「表示」というボタンが 10 画面に存在していて合計で 10 個あるとすると、データ上では「表示」というレコードが 10 行存在することになります。こうした形式のデータをそのまま用語ベースにしてしまうと、Trados の用語認識ウィンドウがこんな感じになります。

　　　　

もうこうなると用語認識の意味がありません。しかも、Trados の用語認識機能は、用語ベースが大きい場合、すべての用語を検索してくれません。今回の記事では、こんな風になってしまう 34 万語の用語ベースをどう扱ったかをグチりたい、じゃなくて説明したいと思います。今回、私が行ったのは、以下の 3 つです。

　1. 重複する用語を削除する
　2. 用語ベースの検索設定を調整する
　3. Xbench を使って手動で検索する

最初から言っておきますが、最後は「手動で検索」しました。Xbench を使えばワンアクションですが、それでも多くの用語でそのワンアクションが必要でした。

1. 重複する用語を削除する

UI のデータをそのまま用語ベースにしてくる翻訳会社さんは多いので、重複を削除する処理はよく必要になります。ただ、今回はあまりにも量が多く、この削除が大変でした。私が重複を削除する方法として思い付くのは、以下の 3 つくらいです。

　(1) Glossary Converter でマージする
　(2) Excel で数式を使う
　(3) Excel で [重複の削除] を使う (大文字小文字を区別できない)

(1) Glossary Converter でマージする

用語ベースファイル (.sdltb) を直接 Glossary Converter で処理します。これが最も簡単で便利だと思います。大文字小文字も区別できます。Glossary Converter は、SDL AppStore から無料でダウンロードできるアプリです。操作方法については、以前の記事「【後編】マイクロソフトの用語集を使いたい」も参照してください。

Glossary Converter を起動して [settings] をクリックすると設定画面が表示されます。[Merging] タブで [Merge Files] チェックボックスをオンにすると、重複する用語をマージできます。今回は日本語原文だったので、用語集の日本語のフィールドを設定してマージしてみました。

で、結果はというと、だめでした。原因は、メモリ不足。何回か試したのですが、毎回途中でエラーになってしまいました。ということで、Glossary Converter は諦めて Excel で処理することにしました。

(2) Excel で数式を使う

Excel で処理するには、当然ながら Excel ファイルが必要です。今回は、翻訳会社さんから用語ベースファイル (.sdltb) だけでなく、Excel ファイルも提供されていたのでそれを使いました。もし、Excel ファイルが提供されていない場合は、Glossary Converter を使って用語ベースを Excel ファイルに変換します。

Excel には [重複の削除] という機能があり、実はこれを使えば重複しているデータを簡単に削除できます (後述します)。ただし、この機能は大文字小文字を区別しません。今回の用語ベースは UI であり、訳出では大文字小文字を区別する必要があったので、[重複の削除] ではなく、大文字小文字を区別できる方法を先に試しました。

　A 列: 日本語
　B 列: 英語
　C 列: 日本語と英語を結合する
　　　　数式 = A2&B2
　D 列: 日本語と英語の両方とも同じ用語が既にある場合は空白にする
　　　　数式 = IF(SUMPRODUCT(--EXACT(C2,$D$1:$D1)),"",C2)

D 列の数式を簡単に説明すると、EXACT で大文字小文字も含めて一致しているかをチェックし、SUMPRODUCT を使った計算で D 列に既に存在していないかをチェックしています。

たいていの用語集はこれで処理できるのですが、今回はこの方法もだめでした。SUMPRODUCT は D 列全体をチェックすることになるので、34 万行は多すぎたようです。数式を入力した後、一向に結果が戻らず、カーソルがグルグルと回ったままでした。しばらく待っていましたが無理そうだったので、これも諦めました。(気長に待っていればもしかしたら成功したのかもしれないですが、待ちきれませんでした。)

(3) Excel で [重複の削除] を使う

仕方がないので、大文字小文字の区別は諦めて、[重複の削除] を使いました。さすがにこれは成功しました。で、重複を削除した後の語数はというと、約 15 万語でした。かなり減りました！

Excel で重複を削除した後、その Excel ファイルを用語ベースファイルに変換し、プロジェクトに設定したら、こんな感じでした。だいぶすっきりしました。

　　　

2. 用語ベースの検索設定を調整する

でも、これで安心はできません。重複を削除しても、まだ 15 万語ですから。実は、作業をしているうちに、用語ベースに存在するのに用語認識されてこないものがあることに気付きました。そこで、用語ベースの検索設定を少し調整しました。

[プロジェクトの設定] > [言語ペア] > [すべての言語ペア] > [用語ベース] > [検索設定] と選択すると上図の画面が表示されます。この画面で用語ベースの検索方法をいろいろと設定できます。この画面の設定については、以前の記事「用語ベースの設定」も参考にしてください。

用語が認識されてこない原因は、おそらく [検索レベル] です。「レベル」というのが実際に何を意味しているのかは不明ですが、数字を大きくした方が認識される用語は多くなります。ただ、すべての用語が認識されてくるとはいえないようです。

一応、ヘルプは以下のようになっていますが、「中規模」や「大規模」が具体的にどれくらいの語数を指すのかはわかりません。今回は、既定値の 200 を 500 に変更して作業しました (処理速度は、特に気になりませんでした)。ただ、あまりに用語が多いので [用語の重複を許可する] はオフにしました。

いろいろ苦労したのですが、結局、用語認識で必ずすべての用語を認識するのは無理なのかなぁ、と思っています。[検索レベル] を 500 にしても、認識されてこない用語はありました。最大値は 999 ですが、ヘルプの文面からすると、最大値に設定したからといってすべて検索されるということではなさそうな気がします。

3. Xbench を使って手動で検索する

最後の手段は、Xbench での検索です。普段から、用語認識だけに頼らず、Xbench での検索を併用するようにはしていますが、それはあくまで念のためです。今回は、用語認識ウィンドウはいっぱいだし、大文字小文字を区別せずに重複を削除してしまっているし、[検索レベル] の影響で認識されていない用語もありそうだし、ということで Xbench での検索が多くなりました。

Xbench で検索をするためには、MultiTerm を使って用語ベースから xml ファイルをエクスポートして、それを Xbench に設定するという方法がベストかと思っています。この辺りの詳細は、またいずれ、ということにしたいと思います。

今回は、以上です。34 万語はとても困りました。ここで説明した方法は、あくまで「用語集に存在することを認識する」までの方法です。実際には、用語集に存在するなら元の Excel ファイルを参照してみたり、複数の選択肢があるなら前後も参照してみたり、とまだまだ作業は続きます。用語集もメモリも、適量以上にたくさんあっても翻訳者としては手間がかかるだけ、ということを強調したくて長い記事にしてみました。最後までお読みくださり、ありがとうございました。

タグ：用語認識用語ベース用語集検索レベル Glossary Converter 検索設定同じ用語 MultiTerm

posted by さくら at 10:00 | Comment(0) | TrackBack(0) | SDL Trados Studio