Lionbridge 專家評論 - 自動翻譯分析

Lionbridge 技術專家檢視機器翻譯與生成式 AI 典範的表現，並分享對最新自動翻譯趨勢的深入見解。

儘管生成式 AI 具有顛覆性的影響，機器翻譯技術仍保有其實用價值

變革即將來臨：了解自動翻譯的發展

我們這麼說已經有好一陣子了：機器翻譯 (MT) 典範快要功成身退，顛覆變革即將來臨。歡迎繼續閱讀我們的專家評論，一窺究竟。

Lionbridge 自動翻譯專家就多個議題大方分享深入見解，包括：

MT 引擎與生成式 AI (GenAI) 模型在特定時間點的翻譯表現，以及從宏觀脈絡看這些結果代表什麼意義
自動翻譯工具的侷限
增進機器翻譯成效的一些方法

當您越了解 MT 和 GenAI，就越能根據自己的需求選擇部署合適的工具，充分發揮各個典範的長處，進而提升翻譯效率、增加內容輸出量並節省成本。

精選 Lionbridge 專家評論

GPT-4 值得注意的不尋常表現，2023 年 10 月

有鑑於生成式 AI (GenAI)/大型語言模型 (LLM) 的盛行與興起，我們亦順應潮流改善了 Lionbridge 機器翻譯 (MT) 品質追蹤工具報告。從此之後，報告中除了 GPT-3.5 與 Davinci 的結果以及神經 MT (NMT) 引擎的表現外，也會將 GPT-4 翻譯結果納入分析。

我們的最新分析得出哪些結果？ GPT-4 有些值得注意的不尋常表現。

我們遇到了幾個與 GPT-4 相關的問題，包括效能緩慢、基於多種不同原因無法提供翻譯，以及行為不一致，例如有的執行有漏譯但其他執行則沒有。

分析結果 #1 — GPT-4 無法翻譯某些文字。

GPT-4 無法翻譯我們 MT 測試集中的某個特定句子。

做了些調查後，我們判斷應該是某個詞彙在特定脈絡下會有性方面的意涵，因此造成這個問題。必須要澄清的是，我們測試集中的這個句子，是完全符合標準且可接受的。然而，這個詞仍舊觸發了 GPT-4 的性相關內容過濾功能，導致 AI 在審查該句子後決定不輸出其翻譯。這個結果讓我們頗感意外，有兩個原因：

單獨來看，該詞彙的一般字義並沒有什麼問題。

從前後文來看，該句子也不會有什麼不妥的解釋。

這個觀察結果讓我們得出結論，GPT-4 的內容過濾機制有部分可能是採用簡單的禁用字詞清單，而其中也包含了一些有歧義的字詞。這種作法的問題在於，它很容易會反應過度而造成錯誤辨識，這對專業翻譯而言是很嚴重的問題。

由於先前的機器翻譯技術，例如神經 MT 引擎等，並未出現過這種類型的內容過濾問題，因此我們推斷這是 LLM 技術的一項侷限。

但現實世界的一些情況會受到這個侷限影響。舉例來說，假設您需要翻譯與婦科或是性教育相關的醫學內容，很可能會訝異地發現有些內容不會被 LLM 翻譯。

有趣的是，只有在將這個句子翻譯至中文這個特定語言時，我們才會遇到這個問題，翻譯至其他語言則不會。而這也顯示 GPT-4 是對輸出進行內容過濾。解決這個問題的辦法，就是在進行翻譯任務時關閉內容過濾功能。

分析結果 #2 — GPT-4 輸出的變異性。

追蹤翻譯表現五個星期後，我們發現 LLM 機器翻譯輸出的變異性非常大，尤其是 GPT-4。

我們本來就預料到生成式 AI 會有這種結果，但即使透過溫度 (Temperature) 以及最高機率 (Top Probability，Top_p) 等參數設定來降低創意程度，試圖讓輸出更加確切一致，所得到結果的變異性還是遠比我們預測的來得高。就算是執行完一次翻譯後緊接著馬上再執行一次，每一次 GPT 執行所得到的翻譯輸出也都不一樣。

這兩個翻譯雖然不一樣，但都是可接受的結果。然而，這是另一層面的控制，也是它與前一個神經 MT 典範的另一個不同之處。

我們開始直覺地體認到，從 NMT 轉變為 LLM MT 典範這個可能的變革，或許不光是技術上的變革，還更需要改變我們的思維：我們可能得做好心理準備，接受就算使用完全一樣的輸入以及參數，也可能會得到沒那麼確切一致的輸出，此外結果的變異性也會比目前慣常使用的自動化作業來得高。

雖然我們在某種程度上得接受不確定性的增加，但或許也能利用一些機制和最佳實務做法，稍加控制這種變異性。

最後，在檢視圖表時，請注意 GPT-4 編輯更動程度線條的下降，並不代表其品質下降，這只是反映了 GPT 輸出的變異性罷了。在下個月的報告中，就可能看到它往上走。歡迎關注這裡，了解相關發展及更多深入見解。

—Lionbridge 創新副總裁 Rafa Moral

專家評論主題索引

瀏覽下方的執行摘要，探索我們之前的專家評論主題。

2023 年 3 月 — 某個大型語言模型 (LLM) 表現勝過某個神經機器翻譯 (MT) 引擎：後續將如何發展？

2023 年 2 月 — 提升機器翻譯 (MT) 的品質：MT 自訂或 MT 訓練

2023 年 1 月 — ChatGPT 與主流 MT 引擎的翻譯品質比較

2022 年 11 月 — Microsoft MT 改善

2022 年 10 月 — MT 和語言正式度

2022 年 9 月 — 運用術語提升 MT 輸出的品質

2022 年 8 月 — 克服 MT 作業產生的嚴重錯誤

2022 年 7 月 — MT 語言排名

2022 年 6 月 — 正確分析 MT 品質

2022 年 5 月 — Amazon 與 Yandex 的 5 月表現

2022 年 4 月 — Yandex 的 4 月表現

2022 年 3 月 — 客製化 MT 比較評估

2022 年 2 月 — 神經機器翻譯 (NMT) 的未來

2022 年 1 月 — MT 引擎 1 月表現

2021 年 12 月 — Lionbridge 在 MT 品質追蹤工具中新增 Yandex MT，以進行競爭力評比

2021 年 11 月 — Bing 翻譯工具有所改良

2021 年 10 月 — Amazon 的 MT 引擎如何不斷進步

2021 年 9 月 — Amazon 對 MT 品質進行改善

2021 年 8 月 — 龍頭科技公司及其 MT 引擎發展

Lionbridge 機器翻譯追蹤工具

Lionbridge 機器翻譯追蹤工具是業界最悠久的 MT 評估工具。

追蹤工具會衡量五大主流神經 MT 引擎及多個 GenAI 模型的整體表現，同時也會根據語言組合及領域評估翻譯品質。除了一些例外，GenAI 的表現並沒有優於主流神經 MT 引擎。然而，這些模型已經能產出不錯的結果，考量到它們的訓練並不是明確地用來進行翻譯，這樣的表現已是可圈可點。

我們可以從中歸納出什麼重點？那就是：儘管人們對部署 GenAI/LLM 深感興趣，機器翻譯證明了它們仍舊是值得使用的自動翻譯工具。

翻譯結果不斷在變化，這個追蹤工具也將繼續追蹤這些變動。

前往追蹤工具

Lionbridge 專家評論

閱讀我們自動翻譯專家大方分享的深入見解。

2023 年 3 月

生成式人工智慧 (AI) 已經達成一個重大的里程碑：在我們的一個比較評估中，它的表現超越了某個神經機器翻譯 (MT) 引擎。更明確地說，大型語言模型 (LLM) GPT-4 在英譯簡中這個語言組合上，品質表現略高於 Yandex (如圖 1 所示)。

這個發展之所以值得注意，是因為自神經 MT 問世以來，這是頭一次有不同類型的 MT 方法勝過某個神經 MT 引擎。除此之外，勝過神經 MT 引擎的是一個非 MT 方法，它不是專為機器翻譯所設計，而是個多用途的語言自動化功能。

為何您應該要留意這個事件？如果您是 MT 供應商，為了保持競爭力，自然必須站在科技進展的最前線，並思考它們對您目前的 MT 服務會有什麼影響。如果您是 MT 採購者，則必須通透了解這些進展，以便做出明智的 MT 投資，而納入部分 LLM 技術而非單純使用神經 MT 服務，很可能會是未來的趨勢。

值得注意的是，生成式 AI 還在開發的初期階段，也因此，它在一些重要領域上仍舊非常不足。舉例來說，它多次執行所產出的輸出是變動的；它在應用程式開發介面 (API) 上有不穩定性方面的問題；此外，它的錯誤也比神經 MT 引擎來得多。這些問題必須要加以解決，這個技術才可能成熟，而我們也已經看到他們以驚人的速度做出不少進展。

LLM 驚人的進步速度也讓這樣的論點更具說服力：LLM 將會成為機器翻譯的下一個典範。我們認為會有一個混合使用的時期，也就是隨著典範的演進，神經 MT 供應商會將 LLM 的一些層面整合至神經 MT 架構中。

歡迎閱讀我們的部落格文章，了解神經 MT 與 LLM 在另外兩個語言組合上的翻譯品質比較，以及我們對這是否是神經機器翻譯典範開始走向結束的看法。

—Lionbridge 創新副總裁 Rafa Moral

	MT 自訂
意義及運作方式	使用詞彙表及「請勿翻譯」(DNT) 清單來調整既有的機器翻譯引擎，藉此改善機器生成翻譯的正確性
功用	改善 MT 的翻譯建議，產出更正確的輸出並減少對譯後編修的需求
特有好處	能讓公司保持其品牌名稱、遵循所應使用的術語，並顧及地區性差異
使用的風險	如果執行不當，MT 可能會產出品質不佳的翻譯建議，對整體品質帶來負面影響
使用時機	非常適合技術性以及講究細節的內容，以及有以下要求的任何內容：正確的術語翻譯地區性差異，但缺乏足夠的資料進行 MT 訓練
成功要素	由經驗豐富的 MT 專家，為您成功管理輸入與輸出正規化規則、詞彙表和 DNT
成本考量	更新 MT 所用的設定檔會有個一次性支付的成本，日後也需要隨時間維護詞彙表；若將潛在好處納入考量，成本相對而言並不昂貴，而且通常比 MT 訓練的成本來得低

	MT 訓練
意義及運作方式	使用來自語料庫及翻譯記憶庫 (TM) 的龐大雙語資料，來建置與訓練 MT 引擎，藉此改善機器生成翻譯的正確性
功用	改善 MT 的翻譯建議，產出更正確的輸出並減少對譯後編修的需求
特有好處	能讓公司展現特有的品牌調性、語氣和風格，並顧及地區性差異
使用的風險	如果沒有足夠的資料來訓練引擎，MT 訓練可能無法對輸出有任何影響；如果編寫人員經驗不足，使用太多不必要的術語，可能會導致 MT 產出品質不佳的翻譯建議，對整體品質帶來負面影響
使用時機	非常適合高度專業的內容、行銷與創意內容，以及有以下要求的任何內容：特有的品牌調性、語氣或風格地區性差異，且有足夠的資料進行 MT 訓練
成功要素	要有最低 15K 獨特不重複的句段，才足以訓練引擎
成本考量	成本包括初次訓練及後續訓練的成本，如果 MT 表現監測顯示還有改進的空間，成本亦會隨時間增加；若將潛在好處納入考量，MT 訓練對特定案例會是值回票價的投資

	MT 自訂	MT 訓練
意義及運作方式	使用詞彙表及「請勿翻譯」(DNT) 清單來調整既有的機器翻譯引擎，藉此改善機器生成翻譯的正確性	使用來自語料庫及翻譯記憶庫 (TM) 的龐大雙語資料，來建置與訓練 MT 引擎，藉此改善機器生成翻譯的正確性
功用	改善 MT 的翻譯建議，產出更正確的輸出並減少對譯後編修的需求	改善 MT 的翻譯建議，產出更正確的輸出並減少對譯後編修的需求
特有好處	能讓公司保持其品牌名稱、遵循所應使用的術語，並顧及地區性差異	能讓公司展現特有的品牌調性、語氣和風格，並顧及地區性差異
使用的風險	如果執行不當，MT 可能會產出品質不佳的翻譯建議，對整體品質帶來負面影響	如果沒有足夠的資料來訓練引擎，MT 訓練可能無法對輸出有任何影響；如果編寫人員經驗不足，使用太多不必要的術語，可能會導致 MT 產出品質不佳的翻譯建議，對整體品質帶來負面影響
使用時機	非常適合技術性以及講究細節的內容，以及有以下要求的任何內容：正確的術語翻譯地區性差異，但缺乏足夠的資料進行 MT 訓練	非常適合高度專業的內容、行銷與創意內容，以及有以下要求的任何內容：特有的品牌調性、語氣或風格地區性差異，且有足夠的資料進行 MT 訓練
成功要素	由經驗豐富的 MT 專家，為您成功管理輸入與輸出正規化規則、詞彙表和 DNT	要有最低 15K 獨特不重複的句段，才足以訓練引擎
成本考量	更新 MT 所用的設定檔會有個一次性支付的成本，日後也需要隨時間維護詞彙表；若將潛在好處納入考量，成本相對而言並不昂貴，而且通常比 MT 訓練的成本來得低	成本包括初次訓練及後續訓練的成本，如果 MT 表現監測顯示還有改進的空間，成本亦會隨時間增加；若將潛在好處納入考量，MT 訓練對特定案例會是值回票價的投資

服務內容

生成式 AI

產業

LANGUAGE CLOUD™

關於我們

Lionbridge 專家評論 - 自動翻譯分析

儘管生成式 AI 具有顛覆性的影響，機器翻譯技術仍保有其實用價值

變革即將來臨：了解自動翻譯的發展

精選 Lionbridge 專家評論

GPT-4 值得注意的不尋常表現，2023 年 10 月

我們的最新分析得出哪些結果？ GPT-4 有些值得注意的不尋常表現。

分析結果 #1 — GPT-4 無法翻譯某些文字。

分析結果 #2 — GPT-4 輸出的變異性。

專家評論主題索引

Lionbridge 機器翻譯追蹤工具

Lionbridge 專家評論

2023 年 3 月

2023 年 2 月

機器翻譯自訂與機器翻譯訓練

2023 年 1 月

2022 年 11 月

2022 年 10 月

2022 年 9 月

2022 年 8 月

2022 年 7 月

2022 年 6 月

2022 年 5 月

2022 年 4 月

2022 年 3 月

2022 年 2 月

2022 年 1 月

2021 年 12 月

2021 年 11 月

2021 年 10 月

2021 年 9 月

2021 年 8 月

認識我們的機器翻譯專家

Rafa Moral

Yolanda Martin

Thomas McCarthy

與我們聯絡

LANGUAGE CLOUD™

產業