一年半前,谷歌首先宣稱其新的神經機器翻譯(NMT)系統可以產生與人類輸出“幾乎不可區分”的翻譯。
但是,盡管谷歌的“幾乎不可區分”主張深深地埋在了論文的技術討論的第18頁,并且經過了小心避免,但微軟在一篇新的研究論文的標題中發表了槍聲,說他們在中文和英文翻譯之間實現了“人對等” 。
根據微軟于2018年3月14日發表的題為“在漢語自動翻譯中實現自動翻譯”的研究論文,他們開發的新型NMT系統的一些變體已經實現了“人類平等”,即它們被認為是平等的人文翻譯質量“(本文將人的素質定義為”WMT 2017中文到英文新聞任務的專業人類翻譯“)。
在24小時之內,TechCrunch,GeekWire,TechRadar和ZDNet等主流技術網點發布了這個故事,可預見地將人權平價理賠視為面值。
微軟提出了一個新的人類評估系統來得出這個方便的結論,但首先他們必須確保“人類平等”不那么模糊和更明確。
因此,微軟在其研究中對人類平等的定義是:“如果雙語人類對人類生產的候選翻譯的質量進行判斷,使其與由機器產生的翻譯質量相當,那么該機器就實現了人類的平等。”
在數學上,可測試的術語中,如果機器翻譯系統的候選翻譯測試集的人類質量得分與相應的人類翻譯的得分之間沒有統計學顯著差異,則實現人類奇偶性。“
新的人類評估方法
該研究團隊使用2017年機器翻譯會議測試集來獲取新聞(WMT2017 newstest)數據,用于培訓和測試其新的NMT系統變體。
微軟團隊使用了雙語人工評估器,并向他們提供了源自WMT2017新聞測試集的源文本和翻譯輸出,并要求他們對0到100的翻譯進行評分.WMT2017會議中的頂級執行引擎是搜狗公司的搜狗知識NMT系統。研究人員還讓他們的評估員評估了搜狗Knowing NMT的輸出。
他們向評估人員展示了九個系統的輸出結果。根據研究報告,每個系統大約有2000個評估(每個系統至少有1,827個評估)。
根據微軟的人力評估人員,從最好到最差的排名:
微軟新的NMT引擎變體(Combo-6)
參考用于此研究的人工翻譯
微軟新的NMT引擎變體(Combo-5)
微軟新的NMT引擎變體(組合-4)
WMT2017的參考翻譯是后編輯的機器翻譯
搜狗了解NMT
WMT2017在會議中使用的參考人類翻譯
微軟現有的生產型NMT系統
谷歌現有的生產NMT系統
根據微軟研究人員的說法,前四項是分組在一起的,并且彼此保持一致,即他們的分數非常接近,彼此之間沒有區別。
微軟與搜狗
奇怪的是,微軟的研究報告還顯示,使用這種新的評估方法,搜狗Knowing NMT的得分非常接近WMT2017參考人類翻譯的得分,因此他們被認為難以區分。
看起來微軟還無意中使用了他們的新評估方法,即搜狗至少與WMT2017參考人工翻譯相比達到了人類平等。
同時,微軟和谷歌現有的生產型NMT系統得分最低。
請親自看看:微軟最高得分的NMT系統變體的英文輸出取自他們的開源Github鏈接。從內容看,平均句子長度并不長,也不是非常復雜。
他們還使用雙語評估研究(BLEU)來衡量以前工作中的任何收益,這些收益也使用BLEU積分進行評分,包括WMT2017對參與NMT引擎的排名。
據報道,微軟的NMT模型設置(包括基線在內的12項中的10項)大部分都是Sogou Knowing NMT的26.40 BLEU分數。微軟的表現最佳的NMT變體以27.40分的優勢擊敗了最先進的1個BLEU,全部使用了與WMT2017相同的訓練數據。
發光的新技術和培訓方法
研究小組為他們的實驗開發了新的NMT引擎。他們嘗試了遞歸神經網絡,卷積網絡和變壓器,并且最終因為輸出更好而使用了變壓器引擎。
接下來,他們還升級了培訓方案。
他們采用了最近稱為雙重學習的技術,使他們的模型能夠從雙語培訓數據的源到目標和目標到源的方向學習。他們還使用了Deliberation Networks,它使用另一個解碼器層來“拋光”NMT系統中第一個解碼器的翻譯 - 就像編輯器打磨作者的草稿。此外,他們還采用聯合培訓和協議正規化。
他們基本上混合并匹配所有這些方法,以迭代方式改進跨同一NMT系統的多個變體的翻譯輸出。
微軟團隊還過濾了WMT2017的訓練數據。清理和過濾培訓數據后,乳清中剩下1800萬雙雙語句子和700萬中英文單語句子。
未來的工作
微軟就這個新的研究開源做了一切,引用外部驗證和未來研究為理由。
至于何時,微軟計劃將其新系統轉化為生產,公司發言人告訴ZDNet:“我們正在努力盡快將其投入生產,但目前我們沒有任何聲明。”