Two separate sets of couples collaborate in a work setting

機器翻譯自訂與機器翻譯訓練

了解各個方式的最佳使用時機,有效提升機器翻譯輸出品質

越來越多公司開始使用機器翻譯 (MT),而且採用的規模前所未見,我們也預期這個數量還會繼續增加。之所以會有這樣的熱潮,一方面是因為這項技術的產出結果越來越可預測,另一方面也跟沉重的市場壓力有關,因為很多公司必須以許多語言更快推出更多內容,但預算卻沒有跟著增加,有時甚至還更少。雖然 MT 技術交付翻譯的速度與成本效益往往是譯者所難以企及,不過公司同時也得解決品質方面的問題。為了在越來越數位化的市場中脫穎而出,企業必須提供更貼近個人的多語言內容,同時不但要提供特定領域資訊、呈現獨特的語氣,更得在所有通路間維持一致的品牌調性。

該如何充分發揮 MT 措施的效益,更順利地達成所有這些目標?您可以運用兩種方式提升機器翻譯的效益:機器翻譯自訂,以及機器翻譯訓練。這兩種做法雖然都能改善 MT 輸出品質,並降低對譯後編修的需求,但公司必須要注意,MT 自訂與 MT 訓練彼此無法互相替代。

請繼續閱讀,了解它們的運作方式與不同之處,以及如何根據自己的使用案例選擇合適的方法。

為何公司不能完全仰賴一般的 MT?

使用例如 Google NMT、Bing NMT、Amazon、DeepL 或 Yandex 這類常見但未訓練過的機器翻譯引擎,來翻譯直接單純的一般內容,通常是可以讓公司取得可接受的 MT 結果。但這些輸出也可能會有品質不佳的問題。

理由何在?常見引擎通常無法翻譯像是生命科學或法律產業這類高度專業的內容,也無法處理這些特殊領域專有術語的翻譯。當一個字詞有兩個意思時,這些引擎會無法判斷並應用正確的字義。此外。它無法保留您品牌獨特的調性,也無法判斷該使用什麼程度的正式或非正式用語與您的目標對象溝通交流。

如果您有一般引擎無法解決的一些特殊要求,便可運用 MT 自訂與 MT 訓練因應這些不足之處,取得更好的翻譯輸出。

什麼是 MT 自訂?

MT 自訂是使用翻譯詞彙表及「請勿翻譯」(DNT) 清單來調整既有的機器翻譯引擎,藉此改善機器生成翻譯的正確性。(翻譯詞彙表彙整的是公司的重要詞彙及其翻譯;DNT 清單彙整的則是公司不希望翻譯的詞彙。)

使用 MT 自訂時,您得在引擎執行工作之前,先將這些來源詞彙及其翻譯的清單上傳到引擎。這個清單能告訴 MT 引擎如何翻譯這些詞彙,或刻意將這些詞彙略過不譯。這個措施能改善引擎的翻譯建議,使公司得以保持其品牌名稱、遵循所應使用的術語,並可顧及地區性差異。而更好的翻譯品質,亦可降低對譯後編修的需求。

MT 自訂一般來說比 MT 訓練更容易執行,但實作這種方式也有些地方需要特別小心注意。上傳詞彙到機器翻譯系統其實並不難,如何挑選合適的詞彙才是真正的挑戰。MT 自訂能否成功,很大程度取決於 MT 專家的技巧,以及他們是否能妥善管理輸入與輸出正規化規則、DNT 清單和詞彙表,所有這些都有助改善輸出品質。如果編寫人員經驗不足,可能會無意間導致 MT 產出品質不佳的建議,對整體品質帶來負面影響。

什麼是 MT 訓練?

MT 訓練這個流程,是使用來自語料庫及翻譯記憶庫 (也就是之前翻譯過的內容) 的龐大雙語資料,來建置與訓練 MT 引擎,藉此改善機器生成翻譯的正確性。

採用這種方式時,要使用公司專有的雙語語料庫來訓練常見 MT 引擎。它可接受多種匯出格式的輸入,一般是以翻譯記憶庫 (TM) 格式最為常見。除了已核准的過往翻譯外,翻譯記憶庫也能提供類似中繼資料的寶貴資訊,像是句子翻譯的時間、由誰翻譯,以及是精確符合還是未達完全符合的模糊符合等。引擎會透過這些資料學習公司對翻譯的期望,因此在翻譯時,引擎不會根據原本對原文的詮釋提出一般的翻譯建議,而會根據語料庫生成客製化的輸出。

公司可以透過 MT 訓練精心調整輸出,讓引擎產出更一致的翻譯,進而展現特有的品牌調性或風格。例如,常見 MT 引擎通常預設使用正式語氣,而您可以跳過這個設定,產出使用非正式語氣的翻譯。和 MT 自訂一樣,訓練後的引擎能產出更正確且錯誤較少的翻譯,公司不但可取得所需的結果,同時也無須花費太多心力進行譯後編修。

在進行 MT 訓練時,公司要盡可能提供引擎越多知識越好;提供的句段品質越好,所得的輸出品質也越高。想要成功訓練 MT,公司不但需要提供至少 15K 獨特不重複的雙語句段,而且這些句段必須品質優異,沒有任何不一致的地方或是重複的原文翻譯。如果公司無法滿足這些最低訓練要求,很可能就無法對輸出產生顯著或甚至任何影響。

MT 自訂與 MT 訓練有何不同?

這兩種方式都是要提升 MT 輸出的品質,減少譯後編修的心力,但兩者的相似處也就僅止於此,它們彼此無法互相替代。

這兩種方式的差別如下:MT 自訂是以詞彙表及「請勿翻譯」(DNT) 清單,來修改既有的 MT 引擎;而 MT 訓練則是透過來自語料庫及翻譯記憶庫的大量雙語資料,從頭開始建置與訓練引擎。

自訂比 MT 訓練更為靈活,可以產出符合大多數公司要求的翻譯建議。然而,自訂會有一次性支付的成本,其中也包括更新輸入 MT 引擎的設定檔;此外隨時間過去,也會有維護詞彙表的一些額外成本。

MT 訓練則非常適合擁有高度專業內容與複雜使用案例的大型企業使用。實作 MT 訓練的成本包括初次訓練及後續訓練的成本,如果 MT 表現監測顯示還有改進的空間,成本亦會隨時間增加。

A geographic pattern overlays a cityscape at night

我的公司什麼時候該考慮使用 MT 訓練或 MT 自訂?

貴公司需要翻譯科學資料或高度技術性的手冊嗎?您需要保留獨特的品牌調性嗎?這些問題的回答,決定了您最適合使用的是 MT 自訂還是 MT 訓練。

適合使用 MT 自訂的時機

MT 自訂有兩個非常重要的使用案例。如果需要達成以下目標,請使用這種方式:

  • 正確的術語翻譯
  • 地區性差異,例如英文 (美國) 與英文 (英國),但您的資料量不夠多,不足以進行訓練

MT 自訂很適合技術性以及講究細節的內容,因為術語的翻譯正確與否,對這類內容非常重要。如果您的資料量不夠多,無法有效進行 MT 訓練的話,建議使用 MT 自訂。

適合使用 MT 訓練的時機

MT 訓練有兩個非常重要的使用案例。如果需要達成以下目標,請使用這種方式:

  • 特有的品牌調性、語氣或風格,並確保不需耗費太多心力進行譯後編修
  • 某個目標語言的地區性差異,例如法文 (瑞士) 與法文 (法國),而且您的資料量夠多,足以進行訓練

MT 訓練很適合翻譯行銷和創意內容,因為特有的品牌調性、語氣和風格是這類內容很重要的元素。然而,請務必確認您的資料量夠龐大,足以成功完成引擎的訓練。

混合式做法

有時候,您也可以採用混合式做法以獲得最佳結果。舉例來說,公司可以運用一些自訂設定來增強 MT 訓練的效益,讓 MT 產出更好的翻譯建議。

Lionbridge 能協助客戶輕易地實行混合式做法。客戶可以透過 Lionbridge 的企業級 MT 解決方案 Smart MT™ 入口網站自訂他們的 MT,同時也能選購由 Lionbridge 技巧純熟的團隊提供的專業訓練服務。與這些團隊合作,公司往往能更全面地善用 MT,運用 MT 訓練加 MT 自訂的組合,獲致最佳輸出結果。客戶可以藉由各種測試,更加了解如何產出最佳結果,追求更符合自身需求的 MT 方法。

MT 自訂或 MT 訓練:那種策略比較好?

您應該根據自己的情況,選擇最合適的方式來提升 MT 輸出。在探索不同選項時,您可能會覺得 MT 訓練會是充分發揮您 MT 效益的不二選擇,也可能會受持續訓練的大肆宣傳所影響而對這種方式產生興趣。在研究選項時,不妨記住以下這些考量:

應避開的陷阱 #1:以 MT 訓練為唯一的解決方案

MT 訓練可以是提升 MT 輸出極為有效的工具,但前提是它確實能解決已知及特定的問題。

隨著 MT 的使用越來越普及,許多供應商開始以必備解決方案的方式來推廣 MT 訓練,希望能為其客戶提供更多價值。然而,這種做法在某些情況下反而會適得其反。有些公司之前便完全只使用訓練這種做法,希望藉此取得更好的 MT 輸出,但後來轉為尋求 Lionbridge 的服務,因為成本效益分析的結果讓他們對訓練甚為失望。他們對引擎產出的翻譯建議不甚滿意,因而希望尋找更具成本效益的解決方案。為何他們會不滿意?簡單地說,就是因為還有更適合他們特定情況的做法。

諸如 Lionbridge 這類創新的 MT 供應商,會在情況合適時使用 MT 訓練,但一般而言更加仰賴自訂這種做法,以比 MT 訓練更低的成本獲致客戶想要的 MT 結果。

應避開的陷阱 #2:在 MT 訓練期間大肆宣傳持續訓練

在研究 MT 解決方案時,您可能會發現有的供應商會特別宣傳一個概念:在個別專案完成後仍持續訓練引擎。請特別小心這類說法。只有當您的客製化引擎需要不斷地更新,才有可能從事所謂的持續訓練。

我們要強調的是,一個專案必須要有至少 15K 獨特不重複的句段能用來訓練引擎,MT 訓練才能成功。如果公司的資料量不夠多,可能會用專案內容來更新自訂功能,但很多時候也將之稱為「訓練」。

總結

自訂是比 MT 訓練更為靈活的工具,可以產出符合大多數公司要求的 MT 翻譯建議。運用自訂功能,您可以充分改善 MT 翻譯建議,保持品牌名稱並遵循所應使用的術語,進而減少譯後編修人員檢查這些項目的心力。更新 MT 所要使用的設定檔會有個一次性支付的成本,日後也會需要隨時間維護詞彙表,但通常會比 MT 訓練的相關成本來得低。

A geographic pattern overlays a cityscape at night

MT 自訂的最佳實務做法為何?

在實作 MT 自訂時,請務必按照以下的最佳實務做法進行。

輸入與輸出正規化規則

請為最常使用的語言建立一個輸入與輸出正規化規則的資料庫,以便控制交由 MT 處理的輸入並提升其輸出品質。您可以利用這些規則,達成所需的特殊要求。

舉例來說,您可以設定一個輸入正規化規則,告訴 MT 引擎在法文翻譯輸出中使用角形引號 [« … »] 而非雙引號 [“...”]。這個規則可以提升法文翻譯輸出的品質,因為法文讀者慣常使用的是角形引號 (les guillemets) 而非雙引號。公司可以套用輸入與輸出正規化規則來執行類似的修正,解決共通語言的地區性語言差異,例如法文 (比利時)、法文 (加拿大)、法文 (非洲),諸如此類。

「請勿翻譯」清單與規則

建立一個詞彙清單,收入您不希望翻譯的字詞,並設定規則,先將任何辨識到的「請勿翻譯」(DNT) 詞彙以代碼取代,再將內容輸入至引擎。這個動作可以讓引擎略過這個詞彙,進而防止它被翻譯。待 MT 引擎處理並傳回其翻譯建議後,再設定輸出正規化規則,以 DNT 詞彙取代代碼。

詞彙表製作

請審慎準備您的詞彙表,以利產出正確且一致的翻譯。在決定是否要將某個字詞加入詞彙表時,不妨參考表 1 列出的重要因素。

彙編詞彙表的一般指引

考量事項 設想問題 這個詞彙是否該加入詞彙表?*
頻率 這個詞彙有多常出現在來源文本中? 如果詞彙並不常出現,就不要加入。
歧義 這個詞彙是否有多個意思,或很容易與其他字詞混淆? 如果詞彙有歧義,就請加入。(注意:請確認詞彙的其他字義很少出現在來源文本中。)
專業術語 這個詞彙是否是某個特定領域或主題的專業用語? 是的話,就請加入。
一致性 這個詞彙過去的翻譯是否一致? 是的話,就不要加入。
重要性 這個詞彙對文本的整體意義有多重要? 如果對文本的意義而言很重要,就請加入。
複雜性 詞彙是否很複雜,是否會導致機器翻譯系統難以正確地翻譯? 是的話,就請加入。

表 1. 建立詞彙表時的考量因素。

*這些一般指引亦可能會有例外情況。

注意事項

在建立詞彙表時,建議您也遵守以下注意事項:

  • 不要加入通用的一般詞彙,例如單一個字、動詞和形容詞等,這類字詞搭配 MT 使用的效果不彰,且可能會對一般品質、句子架構、詞性一致性及語序造成負面影響
  • 不要將長的詞彙拆開
  • 不要加入相互矛盾的詞彙
  • 不要加入重複的詞彙
  • 一個詞彙在每個來源語言只列出一次
  • 使用多字詞語
  • 使用專有產品名稱
  • 使用 DNT 詞彙

Lionbridge 對 MT 自訂與 MT 訓練採取什麼做法?

客戶可以透過 Lionbridge 的 Smart MT 入口網站,輕鬆地實作 MT 自訂,亦可善用我們的精良技術,同時在多個 MT 引擎上使用自訂功能。您只需要彙編好 MT 詞彙表與 DNT 清單、上傳這些詞彙,即可接著將它們套用到每個 MT 引擎上。這項技術可讓您不會受特定引擎所限制,並可隨時更換引擎以取得最佳結果。

此外,我們的 MT 專家也提供諸多相關服務,可供您搭配我們的 MT 技術使用。與 Lionbridge 合作,我們會致力協助公司找出最有效的 MT 策略,以及執行該策略的最佳方式。

無論是剛開始探索使用 MT 的可能性、想透過自訂功能提升現有 MT 的作業能力,或因為內容創作成長使 MT 成為可行的方案,我們都能提供符合您需求的解決方案。

機器翻譯訓練與機器翻譯自訂彼此間有什麼不一樣?

表 2 是 MT 訓練與 MT 自訂間的比較,方便您一覽哪一種方法比較適合您。

機器翻譯自訂與機器翻譯訓練

  MT 自訂 MT 訓練
意義及運作方式 使用詞彙表及「請勿翻譯」(DNT) 清單來調整既有的機器翻譯引擎,藉此改善機器生成翻譯的正確性 使用來自語料庫及翻譯記憶庫 (TM) 的龐大雙語資料,來建置與訓練 MT 引擎,藉此改善機器生成翻譯的正確性
功用 改善 MT 的翻譯建議,產出更正確的輸出並減少對譯後編修的需求 改善 MT 的翻譯建議,產出更正確的輸出並減少對譯後編修的需求
特有好處 能讓公司保持其品牌名稱、遵循所應使用的術語,並顧及地區性差異 能讓公司展現特有的品牌調性、語氣和風格,並顧及地區性差異
使用的風險 如果執行不當,MT 可能會產出品質不佳的翻譯建議,對整體品質帶來負面影響 如果沒有足夠的資料來訓練引擎,MT 訓練可能無法對輸出有任何影響;如果編寫人員經驗不足,使用太多不必要的術語,可能會導致 MT 產出品質不佳的翻譯建議,對整體品質帶來負面影響
使用時機 非常適合技術性以及講究細節的內容,以及有以下要求的任何內容:
*正確的術語翻譯
*地區性差異,但缺乏足夠的資料進行 MT 訓練
非常適合高度專業的內容、行銷與創意內容,以及有以下要求的任何內容:
*特有的品牌調性、語氣或風格
*地區性差異,且有足夠的資料進行 MT 訓練
成功要素 由經驗豐富的 MT 專家,為您成功管理輸入與輸出正規化規則、詞彙表和 DNT 要有最低 15K 獨特不重複的句段,才足以訓練引擎
成本考量 更新 MT 所用的設定檔會有個一次性支付的成本,日後也需要隨時間維護詞彙表;若將潛在好處納入考量,成本相對而言並不昂貴,而且通常比 MT 訓練的成本來得低 成本包括初次訓練及後續訓練的成本,如果 MT 表現監測顯示還有改進的空間,成本亦會隨時間增加;若將潛在好處納入考量,MT 訓練對特定案例會是值回票價的投資

表 2. MT 自訂與 MT 訓練之比較

與我們聯絡

若想進一步探索我們如何能協助您充分善用機器翻譯,歡迎立即與我們聯絡

linkedin sharing button

Thomas McCarthy 與 Janette Mandell
作者
Thomas McCarthy 與 Janette Mandell
  • #ai
  • #blog_posts
  • #translation_localization