2017中國互聯網大會在北京國家會議中心拉開帷幕,為期三天。谷歌翻譯研發(fā)科學家高勤詳盡講述了谷歌翻譯最近一年取得的最新進展,主要在于利用機器學習消除語言障礙。
高勤表示,谷歌翻譯現在提供超過100種語言互通,覆蓋全球99%的網民,每天提供超過10億次的翻譯,大約相當于100萬本書的文本總量。月度活躍用戶超過10億人次,其中95%來自于美國以外地區(qū)。在技術層面,谷歌利用機器學習帶來了許多全新的翻譯體驗,例如利用手機攝像頭做的即時翻譯,利用手機麥克風和揚聲器進行即時對話翻譯,離線翻譯的支持為沒有數據服務的旅行者提供幫助。
在翻譯質量方面,谷歌基于神經網絡機器翻譯技術在翻譯的流暢度和準確性上進行了的提升。高勤認為,神經網絡相對于傳統(tǒng)技術是一種革命性的改變,能夠獲得連續(xù)的、全局的決策信息。
“傳統(tǒng)的翻譯技術,基于短語的統(tǒng)計機器翻譯是拼圖過程,通過對短語對的排列和組合,嘗試找出較好的翻譯選項,而整個決策過程是離散的,而支持這個決策的信息也都是局部的。而神經網絡機器學習是反其道而行之,做每一步翻譯過程中可以利用云語言與目標語言所有信息,使整個決策過程既是連續(xù)也是全局的。
高勤表示,2015年最初預計完成項目計劃要花三年時間,但基于TensorFlow平臺,在2016年11月針對16個語言的機器翻譯能力基本實現。這其中,多語言模型使200個模型的訓練與維護成為可能。
所謂多語言模型是指用同一套神經網絡學習多種語言的互相翻譯。如將英語、西班牙語、韓語放在同一個翻譯模型中進行翻譯。具體的實現方式:“將我們想要翻譯的目標語言代碼通過特殊符號形式告訴神經網絡,神經網絡就可以處理多種語言的翻譯。如,要翻譯到日語,只需要在原語言前加入2ja+簡單符號。通過這樣處理的多語言簡單符號,很多情況下其性能超過單語言情況?!?/p>
高勤表示,在谷歌翻譯的實踐過程中,發(fā)現神經網絡內部對多種語言的表示具有一定的普適性?!爱斘覀儗Χ嗾Z言模型、神經網絡內部對多語言中意義相近的句子向量表示進行多維空間投影,發(fā)現意義相近的句子投影到相鄰區(qū)域”。