Trados さん、頑張って！

<< 2019年03月 | TOP | 2019年05月 >>

2019年04月30日

【後編】マイクロソフトの用語集を使いたい

前編に引き続き、マイクロソフトの用語集を Trados で使えるように変換する方法を説明します。今回こそ具体的な手順を説明しますが、Glossary Converter の使い方に詳しい方は前編の概要だけでだいたいわかって頂けるかと思うので読み飛ばしてください。

説明する手順は、前編で説明したとおり、こんな感じです。

1. マイクロソフトの用語集ファイル (tbx) を用語ベース (sdltb) に変換し、さらにそれを Excel ファイル (xlsx) に変換する。

2. Excel で、定義などの不要な列を削除して英語と日本語の 2 列だけにする。

3. 2 列だけにした Excel ファイル (xlsx) を用語ベース (sdltb) に再度変換する。

4. 出力された用語ベース (sdltb) を、英語でマージする。

5. マージした用語ベース (sdltb) を、さらに日本語でマージする。

　　

まず、Glossary Converter のお約束

まず、Glossary Converter のステップ全体に共通する点を説明します。

◆ [settings] で設定してから、ドラッグアンドドロップする

Glossary Converter の基本的な使い方は、以下のとおりです。

[settings] で設定する

変換元のファイルをドラッグアンドドロップする

変換元のファイルと同じフォルダーに変換後のファイルが生成される

どんなファイルを変換するときも、この手順は変わりません。そして、Glossary Converter は、一度行った設定を覚えています。同じ変換を何回もするときは設定を覚えていてくれる機能も便利ですが、今回はいろいろな変換をするので、各ステップで、設定を変えてからファイルをドラッグアンドドロップします。

なお、ドラッグアンドドロップできないときは、Alt+O でファイル選択のダイアログボックスが表示されるので、ファイルを指定して変換を開始します。

◆ 時間がかかる

マイクロソフトの用語集はとても大きいので、変換にものすごく時間がかかります。止まっているんじゃないかと心配になりますが、ステータスバーを見ながら、気長に、気長に、お待ちください。

1. マイクロソフトの用語集ファイルを用語ベースに変換、さらに Excel ファイルに変換

tbx 形式の用語集ファイルはそのままでは編集しにくいので、なんとか Excel で編集できる形にします。tbx ファイルを直接 Excel で開くこともできますが、XML の知識がないと編集しやすい形にするのは難しいため、今回は ① tbx ファイルを Trados の用語ベースに変換、② 用語ベースを Excel ファイルに変換という 2 段階の方法を取ります。2 段階はちょっと手間ですが、この方法なら複雑なことを自分で考えなくても Glossary Converter が適当に変換してくれます。

① tbx ファイルを用語ベースに変換

・設定
最初は、設定不要です。

・変換
tbx ファイルをドラッグアンドドロップします。これだけで、Trados の用語ベース (sdltb) が生成されます。

② 用語ベースを Excel ファイルに変換

・設定
今度は、[settings] で少し設定を変えます。[General] タブで、「Excel 2007 Workbook」が選択されていることを確認します (デフォルトで選択されているはず)。

[Spreadsheet] タブで、「Multi-line format (one row per synonym)」を選択します。さらに、[Repeat source term] チェックボックスもオンにします。これで、複数の訳語がある場合にそれぞれが別レコードとして複数の行が生成され、各行に原語が入力されます。[Column/Language name] は、今回は空白で大丈夫です。空白にしておくと、最初の列が原語として使われます。

・変換
設定ができたら、用語ベース (sdltb) をドラッグアンドドロップします。これで、Excel ファイルが生成されます。

2. Excel で、定義などの不要な列を削除

生成された Excel ファイルを開いて、定義などの不要な列を削除し、英語と日本語の 2 列だけにします。

3. Excel ファイルを用語ベースに再度変換する

英語と日本語の 2 列だけにした Excel ファイルを、用語ベース (sdltb) の形に戻します。

・設定
このステップでは不要です。

・変換
Excel ファイルをドラッグアンドドロップします。これで、用語ベース (sdltb) が生成されます。

4. 出力された用語ベースを、英語でマージ

この時点の用語ベース (sdltb) は、まだ複数の訳語が別レコードとして残っている状態なので、まず英語でマージして重複する訳語を削除します。英日または日英のどちらか一方向だけで使うときは、その方向で 1 回だけマージすれば大丈夫です。

・設定
[General] タブで、「MultiTerm Termbase」を選択します。これで、用語ベース (sdltb) を用語ベース (sdltb) に変換する、という設定になります。

[Merging] タブで、[Merge Files] チェックボックスをオンにします。[Merge on this Field] は空白のままにします。空白にしておくと、変換処理が始まってからプロンプトが表示されるのでそこで設定します。

・変換
下図のように「merge」と表示されていることを確認して、用語ベース (sdltb) をドラッグアンドドロップします。マージの基準にするフィールドを尋ねるプロンプトが表示されるので、英語 (English) を選択します。変換が終わると、元のファイル名に「.output」を追加した名前で新しい用語ベースが生成されます。

5. 用語ベースを、さらに日本語でマージ

英語でマージした用語ベースをさらに日本語でマージします。(もしかしたら、このステップは不要なんじゃないかとも思うのですが、念のためしておきます。)

・設定
[General] タブで、「MultiTerm Termbase」が選択されていることを確認します。前のステップで選択したので、その設定がそのまま残っていると思います。

[Merging] タブで、[Merge Files] チェックボックスが選択されていることを確認します。これも、前のステップで選択しているのでそのままオンになっているはずです。[Merge on this Field] は、前のステップの「English」が残っていたら、空白に戻します。

・変換
前のステップと同じように「merge」と表示されていることを確認して、用語ベース (sdltb) をドラッグアンドドロップします。マージの基準にするフィールドを尋ねるプロンプトがまた表示されるので、今度は日本語 (Japanese) を選択します。変換が終わると、元のファイル名にさらに「.output」を追加した名前で新しい用語ベースが生成されます。これで、完成です。

これでマイクロソフトの用語集の準備は完了です。ステップが多くなっていますが、今回の方法は試行錯誤の末、なるべく安全な方法として考えました。今さらですが、マージ機能は用語ベースから用語ベースへの変換でなくても、Excel から用語ベースへの変換でも使えます。なので、ステップ 3 の Excel から用語ベースへの変換は省略することも可能だと思います。が、実際にやってみると、微妙にうまくいきませんでした。重複している訳語の中で抜けてしまうものがあったりして、なんとなく信用ならない感じでした。何が抜けるのか、なぜ抜けるのかなどを考えるのがちょっと面倒になり、少々ステップは増えますが、今回の方法にしました。

また、Excel を間に含めたのには、もう 1 つ理由があります。Excel でいろいろ細かい編集がしたかったのです。マイクロソフトの用語集はマイクロソフトのスタイルガイドに従っているので、カタカナの連語の間にはスペースが入っていますし、全角文字と半角文字の間にもスペースが入っています。これが、別会社の翻訳に使うときにはちょっと面倒なんです。Excel ファイルにしてしまえば、この辺りをスタイルガイドに合わせて編集することができます。数式や正規表現を使って (皆さん、お得意ですよね？？) いろいろ加工ができます。

次回は、この用語ベースを Trados のエディタで使うときに気を付ける設定などを紹介したいと思います。

タグ：TBX 用語集 Glossary Converter 用語ベースマージ Merging プラグインアプリマイクロソフトの用語集

posted by さくら at 10:00 | Comment(3) | TrackBack(0) | SDL Trados Studio

2019年04月27日

【前編】マイクロソフトの用語集を使いたい

記事の更新が久しぶりになってしまいました。ちょこちょこと書きたいことはあったのですが、仕事が忙しかったり、なかなか考えがまとまらなかったりで、1 か月以上も過ぎていました。

さて今回は、マイクロソフトから提供されている用語集を Trados で使う方法を紹介したいと思います。この用語集はとても便利ですが、とにかくデータ量が多いので Trados で効果的に使うには少し工夫が必要です。私はずいぶん昔から試行錯誤していたんですが、最近ようやく、Glossary Converter を使ったら便利かもしれないということに思いあたりました。今回は、Glossary Converter のマージ機能を使った方法を紹介します。何かもっとこうした方が良いというアドバイスなどありましたら、ぜひぜひお聞かせください。

この記事は「前編」として概要だけ説明します。細かい Glossary Converter の使い方などは後編で書きたいと思います。

マイクロソフトの用語集

https://www.microsoft.com/ja-jp/language/Terminology

この用語集には、IT 分野で使える用語が大量に入っています。マイクロソフト提供のものですが、製品の UI などは別で提供されていて (おそらく、一般人は無料では手に入らない)、この用語集には一般的な用語のみが格納されています。

各国語のデータが用意されているので、日本語を選択してダウンロードします。ダウンロードされるデータは tbx 形式のファイルです。tbx とは「Term Base eXchange」のことで、用語データに一般的に使われる XML のデータ形式です。この形式は、Multiterm に付属のコンバーターでもサポートされています。

変換に使用するツール: Glossary Converter

tbx 形式の用語集は Multiterm 付属のコンバーターで扱うこともできますが、今回は、SDL App Store から無料でダウンロードできるアプリ「Glossary Converter」を使います。これは、Trados Studio に組み込まれるプラグインではなく、Trados Studio の外側で動くアプリです。 (現在は、上記のバージョンより新しいものになっています。)

このツールについては、SDL の公式ブログ「Glossary Converter – Excelから用語ベースおよびTMXへの変換」でも紹介されています。参考にしてください。

使い方はとても簡単で、アプリを起動したら、そこにファイルをドラッグアンドドロップするだけです。変換したいファイルをドロップすると、後は自動で適当に変換してくれます。実際には、以下の 2 つの処理のいずれかになります。

・用語ベース (sdltb) をドロップ　　　　-->　　Excel ファイルなどに変換される。
・用語ベース (sdltb) 以外をドロップ　　-->　　用語ベース (sdltb) に変換される。

ドロップした元ファイルと同じフォルダーに、同じ名前で拡張子だけが違うファイルが生成されます。同名のファイルが既に存在している場合は、上書きするかどうかを尋ねられるので、必要に応じてファイル名を指定できます。

変換先の形式や細かい変換方法を設定したい場合は、ドロップする前に、[settings] から設定を行います。たいていは何も設定しなくてもうまく変換されます。今回の変換で使う設定については、後編の記事で説明します。

今回の変換で気を付けたこと

今回の変換で私が気を付けたのは、以下の 3 つです。(なんか、どっかのマニュアルみたいですが)

同じ訳語は 1 回だけ表示されるようにする

ただし、大文字小文字は区別する

英日と日英のどちらでも使える用語集にする

マイクロソフト提供の用語集は、同じ訳語であっても定義の違うものは別レコードとして登録しているので、単純に変換すると、Trados の用語認識ウィンドウに同じ訳語が何回も表示されてきてしまいます。用語の定義を知りたいときはそうした表示も役立ちますが、実際には、Trados の用語認識ウィンドウに訳語の定義を表示しても読みにくく、あまり効率的ではありません。今回の用語ベースは、あくまで入力補助として使うことを前提に、定義の違いは無視して同じ訳語は 1 回だけ表示されるようにしました。

重複を削除するにあたって問題となったのが 2 つ目の大文字小文字の区別です。以前に、「Excel で重複を削除する方法」を紹介しましたが、実は、この Excel の「重複の削除」機能は大文字小文字を区別しません。今回のマイクロソフトの用語集では区別できなくても問題ないですが、実際の仕事では、Trados の用語ベースに UI が格納されていることがよくあります。日英翻訳の UI では、一般用語と違って大文字小文字を区別することが必要な場合があるので、今回はそうした用語ベースにも使える方法として Glossary Converter のマージ機能を使ってみることにしました。

Excel で大文字小文字を区別しながら重複を削除する方法も試してみたのですが、私の思い付く限りでは、少し数式を書く必要がありました。その方法は、また次回紹介したいと思います。

最後に、3 つ目の英日と日英のどちらでも使えるようにですが、これはいくつも用語集があると面倒なので、1 つにしたいなあと思っただけです。ただ、これも重複の削除のときに少し注意が必要で、英語の用語が 1 つで日本語の用語が複数の場合と、この逆の場合とが混在していることを意識しておく必要があります。とは言っても、結局、今回の方法にしたら、ほぼ何もしなくてもうまく変換されました。

変換の手順

変換の手順は、こんな感じです。

1. マイクロソフトの用語集ファイル (tbx) を用語ベース (sdltb) に変換し、さらにそれを Excel ファイル (xlsx) に変換する。

2. Excel で、定義などの不要な列を削除して英語と日本語の 2 列だけにする。

3. 2 列だけにした Excel ファイル (xlsx) を用語ベース (sdltb) に再度変換する。

4. 出力された用語ベース (sdltb) を、英語でマージする。

5. マージした用語ベース (sdltb) を、さらに日本語でマージする。

さて、今回は以上です。概要だけで、何も詳しい手順がなくてすみません。書いていたら予想以上に長くなってしまったので、詳しい手順は後編で説明したいと思います。

タグ：TBX Glossary Converter 用語集用語ベース重複の削除アプリプラグイン AppStore マイクロソフトの用語集同じ用語

posted by さくら at 10:01 | Comment(0) | TrackBack(0) | SDL Trados Studio