言語を選択する:

Finger points to circular rings

用語集の利用による機械翻訳の品質向上

最高水準の用語管理が機械翻訳の品質向上につながります。

無料で利用できる汎用の機械翻訳 (MT) システムを、一般ユーザーや専門家を含む誰もが使用するようになりつつある今日、そういったエンジンで生成される翻訳には不備がある可能性があることを認識しておくことが重要です。品質の問題や重大な誤りにより、ビジネスに甚大な影響が及ぶことがあるためです。本記事では、MT の品質を改善する方法として注目されている効果的な MT 用語管理についてご紹介します。

機械翻訳における用語の課題

概念と「用語」を通じたその表現との間には複雑な関係性があるため、用語は機械翻訳における最大の課題分野の一つとなっています。

用語の観点から見ると、特定の専門分野では、無料の MT システムの利用が望ましくない結果につながる可能性が特に高くなる傾向にあります。とりわけ医療や法律の分野では、この影響がマイナスに作用するおそれがあります。

特定分野のコーパスを使って MT システムのトレーニングを行うことで、品質の低下をある程度抑えることはできますが、汎用の MT システムを使用した場合、用語の一貫性や正確性は保証されない可能性があります。

MT エンジンによる翻訳の品質は、何よりもバイリンガルのトレーニング コーパスの品質に左右されます。そのため、用語の正確な翻訳が保証されるのは、トレーニング コーパス内に原文の用語とその翻訳の両方が含まれている場合のみということになります。

ニューラル機械翻訳 (NMT) システムでは用語の確率分布情報が用いられます。これは高品質な翻訳を実現する上で必要なものですが、それだけでは十分ではありません。デコーダーで用語の対訳を正確に抽出するためには、コーパス内で一定の出現頻度が満たされている必要があります。用語の出現頻度が十分でないと、対訳の候補と判定するための十分な重み付けが行われず、不正確な翻訳につながります。

人々の写真が入った球体に向かって伸ばされた手

汎用 MT のトレーニングが誤った翻訳につながる仕組み

汎用の MT システムは多くの場合、さまざまなコンテンツを含む大規模なコーパスを使ってトレーニングされています。その結果、出現頻度が最も高い用語候補とその潜在的な対訳が、実際に翻訳されている用語とは別の分野向けのものとなる場合があり、その用語が誤った形でターゲット言語 (翻訳先の言語) に翻訳される可能性があります。

たとえば、スペイン語の fósforo を英語に翻訳する場合、match (火をつける道具の「マッチ」) とも phosphorus (化学元素の「リン」) とも訳すことができます。汎用の MT エンジンでは、原文で意図されている内容を容易に判別できないため、翻訳結果が誤りとなる可能性があります。

この問題を解決するには、特定の分野に特化し、専門用語を含むバイリンガル テキストを使ってカスタム MT システムをトレーニングします。

しかし、特定の分野に特化したテキストでエンジンのトレーニングを行ったとしても、用語が一貫性のある形で使用されていない場合、翻訳の正確性は必ずしも保証されません。

業界ソリューションの現状

この分野の研究では、アノテーションを付加することで NMT システムに言語情報を取り入れることが提案されています。

手動または半自動のアノテーションの導入は、用語集などのリソースの有無や、時間、コスト、アノテーションを担当する人員といった制約に左右されます。

ライオンブリッジが提供するソリューション

ライオンブリッジの Smart MT™ では、ソース言語 (翻訳元の言語) とターゲット言語 (翻訳先の言語) のテキストへの言語ルールの適用を可能にし、特定のプロファイルに加えられた「翻訳しない語句 (DNT)」と用語集のリストに基づいて用語を適用できます。

当社は、新しい用語の追加や古くなった用語の除外などの用語集の定期的なメンテナンスや、新しい用語集の作成など、用語集に関連するあらゆるニーズに対応しています。また、Smart MT では用語集を一度作成するだけですべての MT エンジンで使用できるようになるため、時間とコストの節約につながります。

MT プロジェクトにおける最適な用語集の使用方法

MT プロジェクトで用語集を使用するのは、想像するほど簡単ではありません。用語集が不適切に使用された場合、機械翻訳全体の品質にマイナスの影響を及ぼす可能性があります。MT における用語の順守を徹底するための最適な方法は MT のトレーニングです。

MT エンジンの十分なトレーニング、用語集のカスタマイズ、前処理と後処理のルールの明確化を組み合わせることで、MT による翻訳において適切な用語が使用され、お客様の文書と同様のスタイルに従った訳文が生成されるようになります。

暗い背景に重なる多数の点と 3 次元の立方体

機械翻訳ソリューションに必要な用語管理の機能

機械翻訳ソリューションの用語管理機能を評価する場合は、次のような機能が備わっているかどうかを確認してください。

  • 用語集の管理
  • 「翻訳しない語句 (DNT)」リストの管理
  • 提案される翻訳と承認済みの翻訳の管理
  • 用語集および翻訳メモリ (TM) のインポートによる、用語と文章の一括アップロード
  • 特定の分野または製品固有の MT エンジン プロファイルの作成と、それらのエンジン間のコンテンツ ルーティングの自動化

これらの機能を組み合わせることで、翻訳結果の品質を向上させることができます。

ライオンブリッジの Smart MT ソリューションの機能

Smart MT は、コネクターを介してさまざまなサードパーティ製 MT システムと連動します。これは MT を活用するための道具と考えることができ、次のような機能を備えています。

  • Microsoft、Google、Amazon、DeepL、Yandex など、外部の主要な MT プロバイダーとの接続。
  • 用語の管理。用語集や「翻訳しない語句 (DNT)」の用語をリアルタイムで追加、更新できます。用語集を適切に維持でき、翻訳結果において用語が望ましい形で正確に使用されるようになります。
  • 言語ルールの適用。これにより、既知の問題への対応や MT の品質向上のために、ソース言語のテキストまたは出力された MT 翻訳が修正されます。

当社ではこれら以外にも、用語集に含まれている用語と、トレーニング コーパスや MT の出力におけるその用語の使用との間の不一致を特定できる自動化機能を各種提供しています。これらの自動化機能は、トレーニング コーパスまたは MT の出力が承認済みの用語に従っていないケースの特定と修正に役立ちます。

MT で必要な用語が使用されていないことがわかった場合は、DNT、製品名、特定の主要分野やブランドの用語を含む用語集を使用することをお勧めします。

用語集の作成と使用に関するその他のヒント

機械翻訳で期待どおりの結果を得るには、用語集を作成する際に次のガイドラインを参考にすることをお勧めします。

  • 用語集には、ソース言語で出現するたびに一貫した形で体系的に使用できる用語のみを登録するようにします。多くの場合、特定分野に特化した用語、お客様の承認を受けた語彙、専門用語などがこれに該当します。
  • ある用語に対して複数の翻訳が存在する場合、用語集では一つの翻訳のみを使用します。
  • 用語集に登録する用語は基本的に名詞句にします。これは特に連語、業界用語、お客様固有の製品名などに当てはまります。
  • 一般的な用語、汎用的な言葉は登録しないようにします。1 つの文に多数の用語が含まれていると、翻訳品質に影響する可能性があるためです。

お問い合わせ

用語の適切な管理を通じて MT を有効活用するための当社の支援サービス ソリューションにご興味があれば、ぜひ当社までお問い合わせください。

linkedin sharing button

ヨランダ マーティン、ジャネット マンデル
AUTHOR
ヨランダ マーティン、ジャネット マンデル
  • #technology
  • #blog_posts
  • #translation_localization