2017中國互聯(lián)網(wǎng)大會在北京國家會議中心拉開帷幕,為期三天。谷歌翻譯研發(fā)科學(xué)家高勤詳盡講述了谷歌翻譯最近一年取得的最新進展,主要在于利用機器學(xué)習(xí)消除語言障礙。
高勤表示,谷歌翻譯現(xiàn)在提供超過100種語言互通,覆蓋全球99%的網(wǎng)民,每天提供超過10億次的翻譯,大約相當(dāng)于100萬本書的文本總量。月度活躍用戶超過10億人次,其中95%來自于美國以外地區(qū)。在技術(shù)層面,谷歌利用機器學(xué)習(xí)帶來了許多全新的翻譯體驗,例如利用手機攝像頭做的即時翻譯,利用手機麥克風(fēng)和揚聲器進行即時對話翻譯,離線翻譯的支持為沒有數(shù)據(jù)服務(wù)的旅行者提供幫助。
在翻譯質(zhì)量方面,谷歌基于神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)在翻譯的流暢度和準確性上進行了的提升。高勤認為,神經(jīng)網(wǎng)絡(luò)相對于傳統(tǒng)技術(shù)是一種革命性的改變,能夠獲得連續(xù)的、全局的決策信息。
“傳統(tǒng)的翻譯技術(shù),基于短語的統(tǒng)計機器翻譯是拼圖過程,通過對短語對的排列和組合,嘗試找出較好的翻譯選項,而整個決策過程是離散的,而支持這個決策的信息也都是局部的。而神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)是反其道而行之,做每一步翻譯過程中可以利用云語言與目標(biāo)語言所有信息,使整個決策過程既是連續(xù)也是全局的。
高勤表示,2015年最初預(yù)計完成項目計劃要花三年時間,但基于TensorFlow平臺,在2016年11月針對16個語言的機器翻譯能力基本實現(xiàn)。這其中,多語言模型使200個模型的訓(xùn)練與維護成為可能。
所謂多語言模型是指用同一套神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)多種語言的互相翻譯。如將英語、西班牙語、韓語放在同一個翻譯模型中進行翻譯。具體的實現(xiàn)方式:“將我們想要翻譯的目標(biāo)語言代碼通過特殊符號形式告訴神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)就可以處理多種語言的翻譯。如,要翻譯到日語,只需要在原語言前加入2ja+簡單符號。通過這樣處理的多語言簡單符號,很多情況下其性能超過單語言情況?!?/p>
高勤表示,在谷歌翻譯的實踐過程中,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)內(nèi)部對多種語言的表示具有一定的普適性?!爱?dāng)我們對多語言模型、神經(jīng)網(wǎng)絡(luò)內(nèi)部對多語言中意義相近的句子向量表示進行多維空間投影,發(fā)現(xiàn)意義相近的句子投影到相鄰區(qū)域”。