神經機器翻譯:人工智慧在語言翻譯中扮演的角色

多數行銷專業人員都知道:大數據正挾著勢如破竹的氣勢,大舉革新企業提高營運效率及推動創新的做法,而且此一現象有加劇趨勢。許多專家預測,資料量可望以 40% 的年增率持續成長。

可想而知,隨著企業紛紛尋求有效運用資料的途徑,如何因應資訊過載,也成為一大艱鉅挑戰。即便如此,大數據也可帶來眾多龐大商機,透過本地化發展全球業務,就是很好的例子。

除了資料量大幅攀升之外,還有兩大因素正催化著本地化產業的變遷:第一項因素為突飛猛進的電腦運算能力,第二項因素則是眾所注目的深度學習,也就是 Google 在影像和語音辨識演算法中採用的其中一種機器學習技術。

在上述因素的交相加乘之下,近期深度學習於翻譯與本地化領域引領風騷,繼而衍生出神經機器翻譯 (NMT) 的現象,自然也不足為奇。畢竟,隨著資料量和技術不斷向前邁進,可翻譯的內容也有所進化。但重點是:什麼是神經機器翻譯?它又會如何提高本地化效率?

在近期的線上研討會中,Lionbridge 機器翻譯部門主管 Jay Marciano 不僅探討如何運用這項嶄新且準確率更高的翻譯方法,也說明這項技術將透過哪些方式帶動產業發展。

神經機器翻譯的運作方式

神經機器翻譯為相對新穎的技術領域,並於 2014 年末首度躍上檯面。在這之前,機器翻譯需借助統計模式之力來運行,機器學習則得仰賴由過往翻譯堆砌而成的資料庫 (也就是翻譯記憶庫),才能順利運作。

雖然神經機器翻譯也像統計式機器翻譯一樣,必須使用翻譯記憶庫加以訓練,卻能運用深度學習 (以及更大量的訓練資料),以建置人工神經網路。

Marciano 使用西洋棋遊戲來說明統計式機器翻譯的運作方式。西洋棋程式內存在一個有限的宇宙,而當中涵蓋數量有限的移動方式。該程式會計算所有可能的移動方式,以找出最佳棋步。同樣地,存在於統計式機器翻譯系統中的機器學習,則會比較來源句子和目標語言中的 N 元語法 (N-gram),或是句子中由 6 個單字組成的字組,以找出關聯性。

相較之下,Marciano 認為神經機器翻譯則如同神經系統中的「舉起動作」。運作方式就好比彈鋼琴一樣:當您彈錯時,就會回到先前的部分、再試一次,然後重複動作,直到彈對為止。神經機器翻譯系統也會比照上述方式來運用其神經網路。

正因如此,相較於有限且通常不甚準確的 N 元語法模式,神經機器翻譯往往更加有效。值得注意的是,神經機器翻譯系統會在強大的 GPU (圖形處理器) 上執行,統計式機器翻譯系統則會於 CPU (中央處理器) 上執行,兩者無法相提並論。統計式機器翻譯系統所需的翻譯時間會比傳統的規則式系統來得長,同理,神經機器翻譯因所用的資料量過於龐大,翻譯句子的所需時間也比統計式機器翻譯系統來得長,但即便如此,對於無法使用 6 個字單位規則的語言來說,統計式機器翻譯可能會發生嚴重的問題。

當然,神經機器翻譯仍有可能會遇到些許問題,例如在翻譯高度技術化的內容時,成效通常不甚理想。不過,包括神經機器翻譯在內的任何機器翻譯系統,都無法妥善翻譯涵蓋未知技術縮寫的來源內容。針對沒有過多訓練資料的語言翻譯組合 (例如德文至韓文),深度學習可開啟全然一新的可能性,大舉運用以其他語言撰寫而成的來源內容做為間接或「樞紐化」訓練資料。

神經機器翻譯和統計式機器翻譯的主要差異為何?向深度學習演算法提出訓練內容時,您不一定需要告知演算法目標為何。您可以讓系統自行找出模式,例如與來源句子的相關脈絡提示。然而,就許多方面而言,具體流程仍舊是個謎。

神經機器翻譯和大數據:開創無限可能性

神經網路最初被使用在影像和語音辨識程式中,旨在運用受監督的資料 (例如附加中繼資料的小狗影像) 來訓練系統。系統會透過讀取中繼資料,了解如何將影像內容視為小狗。

隨後,系統會試圖透過神經網路找出最佳方法,以順利建立此一連結、回到先前的部分,並在答錯時尋求更好的做法。而這就是後續所欲著重的做法。

在語音辨識方面,指定語言中的指定語句錄音,通常只會存在單一版本的正確講稿,以做為深度學習之用,因此訓練作業十分直接了當。翻譯所涉及訓練內容則「含有較多噪音」,作業方式也更加複雜。

但 Marciano 表示,深度學習和大數據都可協助我們開創無限可能性,繼而進一步認識和分析世界。正因為大數據可產生如此大量的資訊,我們才能運用超越人類能力的力量來識別複雜的模式,並將這些模式予以連結。

不過,建置神經機器翻譯流程的心像,仍為一大難事。許多處理作業會於複雜資料的「隱藏層」中完成,這表示,我們難以看清神經網路的決策方式。

正因如此,我們只能提交訓練內容、讓演算法完成相關作業,然後在翻譯不準確時,著手調整訓練內容。此外,Lionbridge 也會使用 GeoFluent 來清除神經機器翻譯產出翻譯的錯誤。

使用 BLEU 等品質評估方法,則構成灰色地帶。如果神經機器翻譯系統基於不為人知的理由,選擇了不同於參考翻譯的翻譯內容,即使所選翻譯內容完美無缺,依舊會針對其詞彙選擇進行扣分。

神經網路和通訊技術的未來趨勢

雖然難以對神經網路進行除錯,並了解其決策機制,神經機器翻譯在流暢度方面的提升,依舊提供了足夠的考量誘因。那麼,市面上有其他任何機器翻譯廠商正在提供神經機器翻譯嗎?

答案是:沒有。目前,您可以在網際網路上試用三個神經機器翻譯系統,分別是:Google 翻譯 (可整合至任何指定的電腦輔助翻譯 [CAT] 工具中)、Microsoft 線上翻譯 (Microsoft Translator),以及 Systran 純神經機器翻譯 (Systran Pure Neural Machine Translation)。不過,在備有完善訓練工具組的生產就緒系統上,我們仍領先群倫。本年度,請密切關注 Microsoft、Google、Systran、Baidu、Facebook、Amazon 和其他廠商針對即將推出的神經機器翻譯系統所發出的公告。

相較於統計式機器翻譯系統,神經機器翻譯成果改善幅度最大的語言組合,可望率先推行神經機器翻譯。Lionbridge 有意先行評估市面上的神經翻譯系統,以了解這些工具能否順利運用在我們的本地化流程中,並滿足旗下客戶的需求,再實際推行這項技術。如需機器翻譯領域的最新趨勢,請造訪我們的機器翻譯領導思維頁面

可以確定的是:神經機器翻譯將徹底改變整個產業。雖然神經機器翻譯至今的發展時間還很短,然而它為翻譯帶來的改善,卻遠比過去十年的進步幅度都要大。傳統翻譯和機器翻譯之間的差距可望持續縮小,而我們力圖了解此項差距可縮小至何種程度。

如需深入了解神經機器翻譯的各項優勢,以及我們對日後的機器學習有何期望,請觀看完整的線上研討會:神經機器翻譯:什麼是神經機器翻譯?它將對翻譯效率帶來哪些影響?

linkedin sharing button
  • #blog_posts
  • #translation_localization

Lionbridge
作者
Lionbridge