A woman interacts with a holographic computer interface

ウェビナー要約: 生成系 AI がグローバルコンテンツに与える影響

生成系 AI および大規模言語モデルのテクノロジーの概要と、それらがローカリゼーションにもたらす劇的な変化

最終更新日: 6 月 28, 2023 5:39PM

生成系 AI (GenAI) と大規模言語モデル (LLM) テクノロジーとはそもそも何なのでしょうか。ChatGPT などの生成系 AI と LLM によって、翻訳とローカリゼーションにどのような変化がもたらされるのでしょうか。そして、LLM を利用してグローバルコンテンツワークフローを改善するにはどうすればよいのでしょうか。

生成系 AI と LLM に関するウェビナーシリーズの第 1 回では、ライオンブリッジの制作および開発チームの責任者であるヴィンセントヘンダーソンがこれらの疑問にお答えします。

ウェビナーを見逃された方は、オンデマンドでご覧ください。

ウェビナーを見る

視聴する時間がない方は、ヴィンセントがウェビナーで説明したトピックの要約をご一読ください。

生成系 AI と LLM とは

生成系 AI と LLM は、人間がどのように文章を書くかをインターネット上のコーパスから学習した人工知能 (AI) エンジンです。何かを入力すると、この AI エンジンはトレーニングで得た知識から、次に出現する可能性が最も高い語句を補完して文章を完成します。

新しい AI に基づくこれらのテクノロジーは、膨大なデータから得た知識を使用して出力内容を決定します。

次の出力として最も妥当と思われるものを判断する能力など大したことではないと思われるかもしれませんが、これは非常に高度なタスクです。LLM は、入力された語句を全体的に捉え、それが言語の全体像の中でどのように位置付けられるかを判別し、出力を生成します。また、プロンプトやトレーニングコーパスの中で最も重要なことと注意すべきことを特定します。

こうした結果、LLM は人間が書いたかのような文を生成する並外れた能力を獲得しています。このテクノロジーは、あたかも人間の意図を理解し、人間のように考え、振る舞っているように思えます。

LLM にできること

ChatGPT のような LLM は、学習に基づいて次のような処理を実行できます。

質問に答える。質問の文章を入力すると、答えとして最も妥当と思われる文章を構成して返します。
指示に従う。一連の指示を入力すると、その指示が適用された場合の最も可能性の高い結果を出力します。
サンプルから学習する。いくつかのサンプルを与え、同じ形式を入力すると、入力情報にサンプルの形式を適用して、最も妥当と思われる文章を返します。

LLM が翻訳に大きな影響を与える理由

ChatGPT のような LLM が翻訳とローカリゼーションにおいて有利な点を理解するために、まず、ニューラル機械翻訳 (NMT) を使用した場合の自動翻訳に関連する課題をいくつか見ていきましょう。

企業はこれまで機械翻訳 (MT) エンジンに依存してきました。それらの多くは、一連の単語を解釈して、それに対応する翻訳を決定するように最適化された専門性の高い LLM MT エンジンです。生成する結果が最適とまではいかない汎用型 MT エンジンを使用する企業は、膨大な関連データを使ってエンジンのトレーニングを微調整すれば、結果を改善することは可能でした。

しかし、これには大きなコストがかかります。また、MT エンジンを使用する企業は、新製品のローンチやマーケティング活動といった新たな取り組みを開始するたびに、エンジンの再トレーニングに労力と費用をかける価値があるかどうかを常に判断しなければなりません。

一方、LLM は、企業が何を期待しているかをわずかなサンプルから学習します。少数のサンプルで済むのは、これらのエンジンにすでに多くの知識が蓄積されているからです。また、学習したことを新しいタスクに適用できます。これにより、大量のデータを必要とするタスクごとのモデルトレーニングを行わなくても、コンテキストを踏まえたより軽量なプロンプトだけで、求める翻訳結果を得ることができます。

とはいえ、この要約の執筆時点で、これらの機能を備えた LLM は高い需要圧力にさらされており、業界規模のローカリゼーションで必要となる膨大なコンテンツにはまだ対応できていません。この状況は近々新たな展開を見せると思われますが、それがいつになるかは定かではありません。

LLM や MT エンジンの翻訳パフォーマンスは優れているのでしょうか。

LLM の翻訳パフォーマンスは MT エンジンと比較するとどの程度のものなのでしょうか。当社では、英語から中国語、英語からスペイン語、英語からドイツ語への翻訳で、主要 MT エンジンと GPT モデルが生成した翻訳品質を比較しました。

現時点で、全般的には GPT では最も評価の高い MT エンジンほどのパフォーマンスは出せていません。しかし、LLM はもう一歩のところまで来ています。図 1 で示されているとおり、GPT-4 は、英語から中国語への言語ペアについて Yandex MT エンジンをわずかにしのいでいます。

英語から中国語への言語ペアにおける、GPT モデルと主要ニューラル MT エンジンによる自動翻訳品質の比較

さまざまな分野や言語に基づくエンジンの比較結果については、ライオンブリッジ機械翻訳トラッカーをご覧ください。こちらでは、自動翻訳の総合的な性能を長期にわたって定期的に評価しています。

GPT のような LLM と主要な MT エンジンの比較におけるその他の発見

語彙、文法、正確性

GPT のような LLM は、具体的な指示がなくても、主要 MT エンジンよりも日常的な表現を多く使って翻訳します。この点は、プロの翻訳者の手法とは食い違うことがあり、ミスと見なされる可能性があります。また、GPT は新しい語句や表現を作り出すことがありますが、これは翻訳者であれば避けることです。

LLM に特定の用語を使用させるのは簡単で、そのように指示するだけで済みます。一方、MT エンジンでは、用語の取り込みにはより手間がかかります。結果または原文に用語を取り入れるには、MT エンジンのトレーニングや MT エンジンの上部構造の構築といった作業が必要になるからです。また、ほとんどの場合は、この際に語形変化やコンコーダンスで問題が発生します。

GPT は言語認識に優れているため、コンコーダンスの一致に関わるエラーなどの言語的なエラーはほとんど発生しません。また、指示を与えることで自己修正することも可能です。

LLM にできるその他のこと

原文または翻訳対象言語のテキストの分析と改善

LLM は多用途なので、翻訳対象の「ターゲット言語」におけるテキストの改善だけではなく、原文テキストの改善にも使用できます。また、その分析では、頻度、量、長さといった定量的な観点にとどまらず、定性的な評価や自動的な改善までも可能です。タスクを特定の方法で行うように LLM に指示することで、期待どおりの結果を生成させることもできます。

ChatGPT は以下の用途に使用できます。

複雑な用語を単純な言葉で言い換えたり、コンテンツを平易な表現でリライトしたりすることで、読みやすく翻訳しやすい文章にする
長い文を意味を変えずに短くすることで、読みやすく翻訳しやすい文章にする

LLM を使用してコンテンツを読みやすくすれば、御社の意図を対象のオーディエンスに理解してもらいやすくなります。また、原文を改善してワード数を減らせば、ローカリゼーションコストを削減できます。

ポストエディットと言語品質保証

プロの翻訳者に依頼するように、LLM に翻訳のポストエディットを任せることもできます。しかし、そもそも LLM にポストエディットがこなせるのでしょうか。ある分析では、1 つの文が最終的な訳文になるまでの労力、つまり編集距離が 48% から 32% へと大幅に減少することが示されました。さらに、余分なスペースなどのエラーの検出、適切な単語や語句の提示、リライトによるターゲット言語テキストの改善も可能です。

生成系 AI の導入によって言語サービスプロバイダーはどのようにコンテンツワークフローを向上できるか

生成系 AI によって多言語コンテンツのワークフローが大きく変わることは明白であり、当社ではこうした変化に対応した各種サービスを提供しています。

多言語コンテンツ生成サービス

LLM の多言語コンテンツ生成能力が、翻訳メモリ (TM) の導入以来、ローカリゼーション業界にもたらされた最大のイノベーションであることは間違いないでしょう。

ここで、LLM がどのようにして多言語コンテンツをゼロから生成するかを説明しましょう。まず、LLM に情報を与えます。次に、それから派生コンテンツを生成し、そのコンテンツをそのまま多言語化するように指示します。

LLM を使用すれば、既存のデータをベースに製品説明やツイート、その他の資料を生成できます。これによって、LLM が現実の物事について指示されたときに生成しがちなハルシネーションのリスクを回避できます。

これまでは、グローバルコンテンツワークフローは国内向けとグローバル向けのコンテンツ制作という 2 つの別々のワークフローをベースにしてきました。最初にソース言語 (原文の言語) のライターを採用して派生コンテンツを制作し、その後ローカリゼーションワークフローを開始するという流れは、LLM を使用する場合には当てはまりません。代わりに、必要なすべての言語で派生コンテンツを制作し、国内言語を含む各言語のポストエディターによりポストエディット作業を行います。

当社では、当社が管理する広範なグローバル翻訳者ネットワークを活用することで、多言語で生成されたコンテンツに対する多言語ポストエディットサービスを提供しています。

お客様の多言語生成系 AI の取り組みを支援

LLM を使用した多言語コンテンツの生成には「プロンプトエンジニアリング」が不可欠です。これは時間のかかる作業で、試行錯誤を伴うこともしばしばです。企業による適切なプロンプト作成の支援はローカリゼーション業界における新たなサービスカテゴリーとなっており、当社ではこれまで蓄積してきた知識とノウハウに基づいて、こうした新たなニーズも支援しています。

当社ではバックエンド開発で AI の活用を簡素化し、お客様が多言語生成系 AI の取り組みでサンプルやプロンプトとして使用するコンテンツタイプを集約するサポートを提供しています。

多言語資産の最適化

GPT は、翻訳メモリ (TM) やスタイルのルールといった言語資産に調整を加えることができます。

ライオンブリッジでは GPT-4 を活用して、フランス語翻訳メモリ (TM) 全体を口語的な表現に変更する試みを実施しました。この際、トーンとスタイルをお客様の仕様に順応させましたが、従来よりも低コストで実現できました。

ケーススタディの詳細

250

翻訳単位

4.5

百万ワード

98.5%

正確度

ローカリゼーションワークフローの改善

このカテゴリーに関わるのは LLM を使用したポストエディットの簡素化、迅速化、低コスト化であり、それによって最終的に翻訳ワークフロー全体の効果を高めるだけでなく、費用対効果にも優れたものにすることです。

ローカリゼーションワークフローの改善は、多くの企業のお客様に、当社が掲げる「あらゆるコンテンツをローカライズする」というコンセプトを実感していただくことにつながります。

まとめ: 今後の展望

LLM はローカリゼーションに確実に大きな変化をもたらします。現在採用されているワークフローは時とともに大きく変わるでしょう。

企業は、国内向けとグローバル向けに分かれたワークフローを別々に運用するのではなく、コンテンツの目標を設定して適切なプランニングを行うだけで、多言語のコンテンツをそれぞれ直接生成できるようになります。

新しいテクノロジーの登場で仕事が奪われるのではと不安になるのはよくある話ですが、当社では LLM によって当社のような言語サービスプロバイダー (LSP) や翻訳者のニーズがなくなるとは考えていません。

たとえば、企業が LLM を使用して多言語コンテンツを生成したとしても、機械による出力に対して当該分野の専門家がレビューを実施する必要性は残ります。これは機械翻訳のポストエディットですが、今後は別の名前で呼ぶようになるかもしれません。

「LLM が提起する課題に、言語業界全体で対処する必要があります。これは刺激的なことです。LLM テクノロジーで対応できる使用事例は爆発的に増加しつつあります」

— ライオンブリッジ製品言語サービス責任者、ヴィンセントヘンダーソン

生成系 AI の詳細やデモを使った事例については、こちらのウェビナーをご覧ください。

お問い合わせ

最新のテクノロジーを活用したグローバルコンテンツの効率化ソリューションをお求めであれば、ぜひ当社までお問い合わせください。当社の担当者が各種サービスについてご説明いたします。

著者

ジャネットマンデル

#technology
#webinar
#translation_localization
#ai
#generative-ai
#blog_posts

サービス

生成系 AI

業界

LAⁱNGUAGE CLOUD™

会社概要

ウェビナー要約: 生成系 AI がグローバル コンテンツに与える影響