精益通翻譯:談機器翻譯正在充斥這個行業

大數據讓機器翻譯迎來春天
此次由百度與中科院自動化所、計算所、浙江大學、哈爾濱工業大學、清華大學等共同研發的“基于大數據的互聯網機器翻譯核心技術及產業化”項目,突破了機器翻譯領域內的四大技術難題——(1)提出基于大數據的互聯網機器翻譯模型,快速響應高負荷翻譯需求;(2)基于大數據的翻譯知識獲取,克服語言數據噪聲問題;(3)通過深度語義分析和翻譯技術,解決語言語義歧義問題;(4)提出樞軸語言機器翻譯技術,實現了稀缺語種的多語言翻譯。
機器翻譯已經有了翻天覆地的進步
一直關注機器翻譯,也一直對機器翻譯有實操,從2013年,我們就在俄語公共號接入了機器翻譯服務,從我們選擇的樣本測試,從2013年到2016年,機器翻譯在通用語言領域的準確度已經有了翻天覆地的進步。我們公共號的翻譯功能也每日有七八萬人使用,據說某地夜總會還專門組織烏克蘭俄羅斯服務員集體培訓使用我們微信的翻譯功能與客戶溝通。
海量數據給了機器翻譯的改進取之不盡用之不竭的素材
以前機器學習進展緩慢的根本原因在于:算法不精、數據不足。
算法方面:從“小黃雞”到軟銀機器人Pepper到微軟小冰,“機器學習”已經顛覆了人類對機器算法的想象。
數據方面:當前信息大爆炸,數據每年都在幾何倍增,現在一小時的翻譯數據可能就是那個時代用于機器學習所有數據樣本的總和。谷歌的數據,百度的數據,微軟的數據,網易的數據,騰訊的數據都接進來做機器翻譯訓練了。去年年末,微軟宣布其旗下的語音通訊軟件Skype開始支持實時翻譯功能,可以在對話進行時將母語不同的雙方的對話直接翻譯成對方的語言。早在去年,微信就開始介入微軟的api提供通用語種翻譯服務;谷歌和百度更是加入了語音識別服務,目前谷歌和百度每日數億人使用其翻譯服務。
最讓人恐慌的是:在算法的優化下,機器翻譯每天都在高速進步呀!
機器翻譯已經蠶食了很大一部分翻譯的翻譯市場
事實上,機器翻譯對翻譯行業帶來的沖擊將會是致命的,承擔不要求準確度的簡單翻譯任務的普通翻譯人員將被機器徹底取代。最近,有一對年輕的中國夫婦僅僅通過我們微信的翻譯功能將中文翻譯成俄語和英語,以此作為與當地人交流的唯一方式,居然也完成了俄羅斯的蜜月旅行。雖然過程中有不少故事,但結果還是十分成功的,這意味著旅游翻譯的存在已經失去了意義。
專業翻譯市場茍延殘喘
由于機器翻譯技術的進步與外語教育的普及,翻譯的存在價值被大大地削弱了,唯一離不開專業翻譯的大概就只有文學作品與商業談判了。很多人會說,專業資料不能機器翻譯,是的目前情況下,涉及合同,工程方面的專業領域除了各個領域的專業詞匯外,其實不難,但是對信息的準確性要求很高,所以機器翻譯暫時無法取代。 有一個客觀情況卻是:中國的翻譯價格已經幾乎20年沒有漲過了。。。
龐大的跨境電商翻譯市場被機器翻譯霸占,人工翻譯基本缺席
翻譯最大的客戶是貿易,電商的出現改變了貿易溝通形式, 從此前的郵件、信函、電話、會面變成了頁面圖片文字呈現。然而電商的翻譯市場人工翻譯缺基本缺席,完全被谷歌、百度免費機器翻譯霸占。中國跨境電商市場越發達,人工翻譯越被擠壓。
同傳翻譯只是少數人的“榮耀”
至于生意談判上的同聲傳譯,這倒是個高薪的職業,但其所需要掌握金融、法律、工程的相關知識就不是一件容易的事,只有金字塔尖的少部分翻譯可以勝任這樣的工作。然而,現在,機器翻譯將這金字塔的底端給拆掉了。
人工智能+機器翻譯恐最終超越人工翻譯
有行業風向標的IBM最近決定砍掉利潤豐厚的咨詢業務,轉向“認知技術”;微軟小冰的智商已經相當于一個16歲少女,而且再以遠超過人類成長的速度成長;谷歌過去一年收購了20多家人工智能的公司;百度的人工智能部門的“大腦”也已經長大到人類四五歲的智商了。
當人工智能的智商超過自然人智商的時候,大腦容量有限的人工翻譯 PK 不知疲倦且無限擴容的機器翻譯會是什么結果呢?
機器翻譯會不會取代人工翻譯還需時間鑒證,但是已經足以摧毀整個翻譯行業。