2019年04月27日
【前編】マイクロソフトの用語集を使いたい
記事の更新が久しぶりになってしまいました。ちょこちょこと書きたいことはあったのですが、仕事が忙しかったり、なかなか考えがまとまらなかったりで、1 か月以上も過ぎていました。
さて今回は、マイクロソフトから提供されている用語集を Trados で使う方法を紹介したいと思います。この用語集はとても便利ですが、とにかくデータ量が多いので Trados で効果的に使うには少し工夫が必要です。私はずいぶん昔から試行錯誤していたんですが、最近ようやく、Glossary Converter を使ったら便利かもしれないということに思いあたりました。今回は、Glossary Converter のマージ機能を使った方法を紹介します。何かもっとこうした方が良いというアドバイスなどありましたら、ぜひぜひお聞かせください。
この記事は「前編」として概要だけ説明します。細かい Glossary Converter の使い方などは後編で書きたいと思います。
この用語集には、IT 分野で使える用語が大量に入っています。マイクロソフト提供のものですが、製品の UI などは別で提供されていて (おそらく、一般人は無料では手に入らない)、この用語集には一般的な用語のみが格納されています。
各国語のデータが用意されているので、日本語を選択してダウンロードします。ダウンロードされるデータは tbx 形式のファイルです。tbx とは「Term Base eXchange」のことで、用語データに一般的に使われる XML のデータ形式です。この形式は、Multiterm に付属のコンバーターでもサポートされています。
tbx 形式の用語集は Multiterm 付属のコンバーターで扱うこともできますが、今回は、SDL App Store から無料でダウンロードできるアプリ「Glossary Converter」を使います。これは、Trados Studio に組み込まれるプラグインではなく、Trados Studio の外側で動くアプリです。 (現在は、上記のバージョンより新しいものになっています。)
このツールについては、SDL の公式ブログ「Glossary Converter – Excelから用語ベースおよびTMXへの変換」でも紹介されています。参考にしてください。
使い方はとても簡単で、アプリを起動したら、そこにファイルをドラッグ アンド ドロップするだけです。変換したいファイルをドロップすると、後は自動で適当に変換してくれます。実際には、以下の 2 つの処理のいずれかになります。
・用語ベース (sdltb) をドロップ --> Excel ファイルなどに変換される。
・用語ベース (sdltb) 以外をドロップ --> 用語ベース (sdltb) に変換される。
ドロップした元ファイルと同じフォルダーに、同じ名前で拡張子だけが違うファイルが生成されます。同名のファイルが既に存在している場合は、上書きするかどうかを尋ねられるので、必要に応じてファイル名を指定できます。
変換先の形式や細かい変換方法を設定したい場合は、ドロップする前に、[settings] から設定を行います。たいていは何も設定しなくてもうまく変換されます。今回の変換で使う設定については、後編の記事で説明します。
今回の変換で私が気を付けたのは、以下の 3 つです。(なんか、どっかのマニュアルみたいですが)
マイクロソフト提供の用語集は、同じ訳語であっても定義の違うものは別レコードとして登録しているので、単純に変換すると、Trados の用語認識ウィンドウに同じ訳語が何回も表示されてきてしまいます。用語の定義を知りたいときはそうした表示も役立ちますが、実際には、Trados の用語認識ウィンドウに訳語の定義を表示しても読みにくく、あまり効率的ではありません。今回の用語ベースは、あくまで入力補助として使うことを前提に、定義の違いは無視して同じ訳語は 1 回だけ表示されるようにしました。
重複を削除するにあたって問題となったのが 2 つ目の大文字小文字の区別です。以前に、「Excel で重複を削除する方法」を紹介しましたが、実は、この Excel の「重複の削除」機能は大文字小文字を区別しません。今回のマイクロソフトの用語集では区別できなくても問題ないですが、実際の仕事では、Trados の用語ベースに UI が格納されていることがよくあります。日英翻訳の UI では、一般用語と違って大文字小文字を区別することが必要な場合があるので、今回はそうした用語ベースにも使える方法として Glossary Converter のマージ機能を使ってみることにしました。
Excel で大文字小文字を区別しながら重複を削除する方法も試してみたのですが、私の思い付く限りでは、少し数式を書く必要がありました。その方法は、また次回紹介したいと思います。
最後に、3 つ目の英日と日英のどちらでも使えるようにですが、これはいくつも用語集があると面倒なので、1 つにしたいなあと思っただけです。ただ、これも重複の削除のときに少し注意が必要で、英語の用語が 1 つで日本語の用語が複数の場合と、この逆の場合とが混在していることを意識しておく必要があります。とは言っても、結局、今回の方法にしたら、ほぼ何もしなくてもうまく変換されました。
変換の手順は、こんな感じです。
1. マイクロソフトの用語集ファイル (tbx) を用語ベース (sdltb) に変換し、さらにそれを Excel ファイル (xlsx) に変換する。
2. Excel で、定義などの不要な列を削除して英語と日本語の 2 列だけにする。
3. 2 列だけにした Excel ファイル (xlsx) を用語ベース (sdltb) に再度変換する。
4. 出力された用語ベース (sdltb) を、英語でマージする。
5. マージした用語ベース (sdltb) を、さらに日本語でマージする。
さて、今回は以上です。概要だけで、何も詳しい手順がなくてすみません。書いていたら予想以上に長くなってしまったので、詳しい手順は後編で説明したいと思います。
Tweet
さて今回は、マイクロソフトから提供されている用語集を Trados で使う方法を紹介したいと思います。この用語集はとても便利ですが、とにかくデータ量が多いので Trados で効果的に使うには少し工夫が必要です。私はずいぶん昔から試行錯誤していたんですが、最近ようやく、Glossary Converter を使ったら便利かもしれないということに思いあたりました。今回は、Glossary Converter のマージ機能を使った方法を紹介します。何かもっとこうした方が良いというアドバイスなどありましたら、ぜひぜひお聞かせください。
この記事は「前編」として概要だけ説明します。細かい Glossary Converter の使い方などは後編で書きたいと思います。
マイクロソフトの用語集
この用語集には、IT 分野で使える用語が大量に入っています。マイクロソフト提供のものですが、製品の UI などは別で提供されていて (おそらく、一般人は無料では手に入らない)、この用語集には一般的な用語のみが格納されています。
各国語のデータが用意されているので、日本語を選択してダウンロードします。ダウンロードされるデータは tbx 形式のファイルです。tbx とは「Term Base eXchange」のことで、用語データに一般的に使われる XML のデータ形式です。この形式は、Multiterm に付属のコンバーターでもサポートされています。
変換に使用するツール: Glossary Converter
tbx 形式の用語集は Multiterm 付属のコンバーターで扱うこともできますが、今回は、SDL App Store から無料でダウンロードできるアプリ「Glossary Converter」を使います。これは、Trados Studio に組み込まれるプラグインではなく、Trados Studio の外側で動くアプリです。 (現在は、上記のバージョンより新しいものになっています。)
このツールについては、SDL の公式ブログ「Glossary Converter – Excelから用語ベースおよびTMXへの変換」でも紹介されています。参考にしてください。
使い方はとても簡単で、アプリを起動したら、そこにファイルをドラッグ アンド ドロップするだけです。変換したいファイルをドロップすると、後は自動で適当に変換してくれます。実際には、以下の 2 つの処理のいずれかになります。
・用語ベース (sdltb) をドロップ --> Excel ファイルなどに変換される。
・用語ベース (sdltb) 以外をドロップ --> 用語ベース (sdltb) に変換される。
ドロップした元ファイルと同じフォルダーに、同じ名前で拡張子だけが違うファイルが生成されます。同名のファイルが既に存在している場合は、上書きするかどうかを尋ねられるので、必要に応じてファイル名を指定できます。
変換先の形式や細かい変換方法を設定したい場合は、ドロップする前に、[settings] から設定を行います。たいていは何も設定しなくてもうまく変換されます。今回の変換で使う設定については、後編の記事で説明します。
今回の変換で気を付けたこと
今回の変換で私が気を付けたのは、以下の 3 つです。(なんか、どっかのマニュアルみたいですが)
- 同じ訳語は 1 回だけ表示されるようにする
- ただし、大文字小文字は区別する
- 英日と日英のどちらでも使える用語集にする
マイクロソフト提供の用語集は、同じ訳語であっても定義の違うものは別レコードとして登録しているので、単純に変換すると、Trados の用語認識ウィンドウに同じ訳語が何回も表示されてきてしまいます。用語の定義を知りたいときはそうした表示も役立ちますが、実際には、Trados の用語認識ウィンドウに訳語の定義を表示しても読みにくく、あまり効率的ではありません。今回の用語ベースは、あくまで入力補助として使うことを前提に、定義の違いは無視して同じ訳語は 1 回だけ表示されるようにしました。
重複を削除するにあたって問題となったのが 2 つ目の大文字小文字の区別です。以前に、「Excel で重複を削除する方法」を紹介しましたが、実は、この Excel の「重複の削除」機能は大文字小文字を区別しません。今回のマイクロソフトの用語集では区別できなくても問題ないですが、実際の仕事では、Trados の用語ベースに UI が格納されていることがよくあります。日英翻訳の UI では、一般用語と違って大文字小文字を区別することが必要な場合があるので、今回はそうした用語ベースにも使える方法として Glossary Converter のマージ機能を使ってみることにしました。
Excel で大文字小文字を区別しながら重複を削除する方法も試してみたのですが、私の思い付く限りでは、少し数式を書く必要がありました。その方法は、また次回紹介したいと思います。
最後に、3 つ目の英日と日英のどちらでも使えるようにですが、これはいくつも用語集があると面倒なので、1 つにしたいなあと思っただけです。ただ、これも重複の削除のときに少し注意が必要で、英語の用語が 1 つで日本語の用語が複数の場合と、この逆の場合とが混在していることを意識しておく必要があります。とは言っても、結局、今回の方法にしたら、ほぼ何もしなくてもうまく変換されました。
変換の手順
変換の手順は、こんな感じです。
1. マイクロソフトの用語集ファイル (tbx) を用語ベース (sdltb) に変換し、さらにそれを Excel ファイル (xlsx) に変換する。
2. Excel で、定義などの不要な列を削除して英語と日本語の 2 列だけにする。
3. 2 列だけにした Excel ファイル (xlsx) を用語ベース (sdltb) に再度変換する。
4. 出力された用語ベース (sdltb) を、英語でマージする。
5. マージした用語ベース (sdltb) を、さらに日本語でマージする。
さて、今回は以上です。概要だけで、何も詳しい手順がなくてすみません。書いていたら予想以上に長くなってしまったので、詳しい手順は後編で説明したいと思います。
Tweet
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
https://fanblogs.jp/tb/8755859
※ブログオーナーが承認したトラックバックのみ表示されます。
この記事へのトラックバック