言語を選択する:

Modern technology with bright lights

より効果的な MT を支援: 機械翻訳可能性に基づく言語ランキング

機械翻訳の導入前に機械翻訳しやすい言語を知ることのメリット

より多くのコンテンツをより短期間で翻訳するという企業へのプレッシャーが強まる中、この課題の解決策の一つとして機械翻訳 (MT) が不可欠であるのは間違いありません。主要な MT エンジンである Google NMT、Bing NMT、Amazon、DeepL、Yandex のパフォーマンスを比較して、どのエンジンが自社のニーズに最適かを判断することには大きな意味があります。当社では、当社が提供する機械翻訳トラッカーを通じて各 MT エンジンを毎月分析しており、主要な MT エンジンの長期にわたる評価を蓄積しています。しかし、当社の分析では現在どのエンジンもパフォーマンスにそれほど大きな違いがないため、さらに詳細な評価を実施することが重要になります。 

MT を最大限に活用するには、MT エンジンによる特定の言語ペアの翻訳しやすさ (言語の機械翻訳可能性) も調査することをおすすめします。言語を比較しやすいように、下記の表 1 では、英語から上位 28 のターゲット言語 (翻訳先の言語) への機械翻訳可能性をランク付けしました。

言語ペアの機械翻訳可能性を調べるメリット

言語ペアの機械翻訳可能性を確認し、どの言語ペアの翻訳がより多くの労力を必要とするかを事前に把握しておけば、各言語の翻訳コストを見積もる際に、予算を適切に割り当てることができます。 

言語の複雑性について十分に理解しておくことは、ビジネス上の適切な判断につながります。加えて、以下のような疑問を解消できます。

  • より複雑な言語ペアのポストエディット作業に予算を多めに配分する必要があるか。
  • 予算が限られている場合に、一部の言語で、簡易的な「ライト」ポストエディット、または重要な個所のみを対象とした「フォーカス」ポストエディットで対応できるかどうか。これらのポストエディットをどの言語に対して実施するか。
  • 特に低予算のプロジェクトで予算の最適な配分を検討する際、ビジネス要素や文化的な要素に加えて言語ランキングを考慮すべきかどうか。比較的低品質でも許容される場合に、機械翻訳可能性ランキングが低い言語を翻訳すべきかどうか。
Digital stream of information

機械翻訳可能性の算出方法

言語の機械翻訳可能性を判断するのは容易ではありません。言語によって異なるさまざまな課題があるためです。また、ある言語では優れたパフォーマンスと見なされることが、別の言語では不適切と見なされることがあります。とはいえ、いくつかの指標を使うことで評価することができます。 

たとえば、必ずしもこうした言語の比較に使用されるものではありませんが、編集距離 (機械翻訳されたテキストを人による翻訳の品質まで高めるために、ポストエディット作業で加えられる変更の量) によって言語の複雑さを大まかに把握することができ、各言語ペアの機械翻訳可能性の判断に役立ちます。 

ライオンブリッジの機械翻訳可能性の分析で明らかになった内容: 言語のランキングと理由

当社が実施した 28 のターゲット言語の機械翻訳可能性ランキングは、当社が今まで処理してきた数百万にも及ぶ文章に基づいたものです。 

その結果、複雑さと語族の間には相関関係があることが示唆されました。 

ロマンス諸語

ポルトガル語、スペイン語、フランス語、イタリア語など、ロマンス諸語の多くを英語から翻訳する際は、少ない変更で高い品質レベルを実現することができます。これらのターゲット言語は機械で処理することが非常に容易であることが明らかになっており、機械翻訳可能性のランキングで上位 4 位を占めています。 

ここで際立っているのが、表内でロマンス語族に属するもう 1 つの言語、ルーマニア語です。ランキングはずっと下の 10 位です。翻訳頻度の低いロマンス語でのこの結果は、MT エンジンのトレーニングに使用されたバイリンガル トレーニング コーパスが少なかったことと、ラテン語との共通点もあるルーマニア語の文法的な複雑さによるものだと考えられます。  

簡体字中国語

簡体字中国語は英語と大きく異なる言語ですが、上位 4 位までを占めるロマンス語に続く 5 位にランクインされています。この高いランキングは、この言語ペアに関して過去 5 年間に頻繁に MT が更新され、改善されたためだと考えられます。これは、同期間に実施していた当社の継続的な MT トラッキングでも確認できています。MT を提供する各企業は、ビジネス上の高い関心を背景に、この言語ペアのパフォーマンスを向上すべく重点的に投資を行っています。 

複雑な言語

ハンガリー語とフィンランド語はどちらもウラル語族の言語ですが、これらの複雑度はより高く、このランキングでは 27 位と 28 位で最下位となっています。同じ語族の複雑な言語であるエストニア語は 24 位にランクされています。 

韓国語は最下位に近い 25 位です。

Person working on computer with analytical data

機械翻訳可能性からわかること

言語の比較には限界がありますが、当社のランキングおよび複雑さと語族の相関関係から、多言語プロジェクトを適切に管理する上で役立つ興味深いインサイトを得ることができます。

表 1

言語の機械翻訳可能性ランキング

ランク 言語 (英語から) ランク 言語 (英語から) ランク 言語 (英語から)
1 ポルトガル語 11 タイ語 20 繁体字中国語
2 スペイン語 12 ノルウェー語 21 リトアニア語
3 フランス語 13 ドイツ語 22 チェコ語
4 イタリア語 14 スウェーデン語 23 アラビア語
5 簡体字中国語 15 トルコ語 24 エストニア語
6 オランダ語 16 スロバキア語 25 韓国語
7 デンマーク語 17 ヘブライ語 26 ロシア語
8 日本語 18 ラトビア語 27 ハンガリー語
9 ギリシャ語 19 ポーランド語 28 フィンランド語
10 ルーマニア語        

表 1

言語の機械翻訳可能性ランキング

ランク 言語 (英語から)
1 ポルトガル語
2 スペイン語
3 フランス語
4 イタリア語
5 簡体字中国語
6 オランダ語
7 デンマーク語
8 日本語
9 ギリシャ語
10 ルーマニア語
11 タイ語
12 ノルウェー語
13 ドイツ語
14 スウェーデン語
15 トルコ語
16 スロバキア語
17 ヘブライ語
18 ラトビア語
19 ポーランド語
20 繁体字中国語
21 リトアニア語
22 チェコ語
23 アラビア語
24 エストニア語
25 韓国語
26 ロシア語
27 ハンガリー語
28 フィンランド語

お問い合わせ

御社の翻訳ニーズに適した効果的な MT 戦略の開発を支援するライオンブリッジのサービスにご興味があれば、ぜひ当社までお問い合わせください。

linkedin sharing button
  • #technology
  • #blog_posts
  • #translation_localization

ラファ モラル、ジャネット マンデル
著者
ラファ モラル、ジャネット マンデル