2016年12月6日,數(shù)以千計的翻譯人員涌入中國大陸各地的辦公樓,認真研讀宣傳冊、信件和技術(shù)手冊等外文資料,并仔細地將這些資料翻成中文。這場翻譯馬拉松每天進行15個小時,持續(xù)了整整一個月。提供資料的客戶以低價得到了原文資料的專業(yè)級中文譯本,而組織這次大規(guī)模翻譯活動的北京公司百度(Baidu Inc.)則可能獲得了更有價值的東西:訓(xùn)練百度在線翻譯引擎的數(shù)百萬對英中詞匯。
AI領(lǐng)域的領(lǐng)頭羊
中國已經(jīng)意識到,在人工智能領(lǐng)域,面對Alphabet、Facebook、國際商用機器公司(IBM)和微軟(Microsoft)等競爭對手,低端模仿是行不通的。2017年2月,中國國家發(fā)展和改革委員會指定百度公司牽頭籌建新的人工智能實驗室,這表明政府相信百度有能力成為中國人工智能領(lǐng)域的頂尖企業(yè)。
在3月初的新實驗室揭牌儀式上,百度公司聯(lián)合創(chuàng)始人兼首席執(zhí)行官李彥宏稱,公司從2014年中至今的研發(fā)支出超過了人民幣200億元(約合29億美元),其中大部分都投在了人工智能上。2016年百度公司營收增長率從此前3年平均的逾30%降至6%左右,而對公司營收貢獻最大的搜索廣告業(yè)務(wù)也遭到本地競爭對手的圍剿。在截至2016年12月31日的財政年度,公司實現(xiàn)營收人民幣705億元。據(jù)市場研究機構(gòu)EMarketer Inc.2016年9月發(fā)布的報告,阿里巴巴集團控股有限公司(Alibaba Group HoldingLtd.)已超越百度公司成為中國數(shù)字廣告市場的領(lǐng)頭羊。
百度希望人工智能可以幫助公司收復(fù)搜索領(lǐng)域的失地,確保公司新業(yè)務(wù)取得成功。這對百度而言很重要,因為這家已有17年歷史的公司一直在努力推進業(yè)務(wù)多元化,但結(jié)果卻是喜憂參半。
據(jù)中國國際金融有限公司(China International Capital Corp.)分析師納塔莉·吳(Natalie Wu)稱,在截至2017年2月的12個月,百度旗下團購網(wǎng)站糯米的日訪客量下降了59%,旗下提供在線訂餐服務(wù)的百度外賣(Waimai)排名行業(yè)第三。此外,據(jù)華興資本證券(香港)有限公司[China RenaissanceSecurities(Hong Kong)Ltd.]的分析師埃拉·紀(Ella Ji)估計,盡管百度旗下類似Netflix的流媒體視頻服務(wù)愛奇藝非常受歡迎,但2017年需要在內(nèi)容方面支出人民幣120億元。而多元化努力受挫則意味著百度進軍人工智能領(lǐng)域的意義更加重大。“移動互聯(lián)網(wǎng)時代已經(jīng)結(jié)束,”李彥宏3月10日接受采訪時說:“我們將對人工智能領(lǐng)域大舉投資,我認為這將使很多人受益并將改變各個行業(yè)。”
2017年1月,百度任命前微軟公司高管陸奇(Qi Lu)為公司首席運營官,其使命是圍繞深度學習、增強現(xiàn)實和圖像識別等技術(shù)重塑公司。百度人工智能團隊已擴大至1300人,預(yù)計2017年還將增加幾百人。該團隊的人員目前分散在北京、深圳、上海和加州森尼維爾的研究室。
近期頻繁發(fā)生人事變動的百度人工智能部門
2015年年中,由50人組成的百度人工智能團隊推出了Deep Speech,一個可識別大部分英語會話的語音識別系統(tǒng)。該系統(tǒng)通過對大量語音數(shù)據(jù)進行解析后推斷出模型,而不是對詞語進行逐字拆分,這一過程就是深度學習過程。和依靠詞匯表和音標字典的傳統(tǒng)翻譯引擎相比,Deep Speech系統(tǒng)的識別準確率更高,因為該系統(tǒng)在確定每個詞的意思時考慮到了語境問題。
不過,在遇到外來詞時,即英語中那些逐漸為人們所接受和使用的來自其他語言的詞匯,Deep Speech經(jīng)常會出錯?!叭绻阆胝f‘放柴可夫斯基的音樂,’系統(tǒng)給出的答案可能是‘放音樂并嘗試咳嗽滑雪,’”科茨說,“我們就直接把這類問題稱為柴可夫斯基問題。”
百度的程序員沒有將“柴可夫斯基”簡單地加入系統(tǒng)詞匯表,而是幫助Deep Speech教它自己理解這個詞。這涉及到輸入更多數(shù)據(jù)幫助系統(tǒng)學習語境問題。
百度公司駐北京的自然語言處理部副主管趙世奇(Shiqi Zhao)回憶說,當時作為哈爾濱工業(yè)大學(Harbin Institute ofTechnology)計算機專業(yè)的一名學生,他在研究計算機翻譯時只有200萬對英中詞匯可供使用,現(xiàn)在百度有大約1億對。但這仍遠遠少于Alphabet公司擁有的5億對詞匯。這一數(shù)據(jù)是《科學》(Science)雜志上一篇關(guān)于Alphabet公司科學家QuocV.Le的文章中提到的。
人海戰(zhàn)術(shù)
為了縮小這一差距,百度采用了一種古老策略:人海戰(zhàn)術(shù)。公司現(xiàn)在常年贊助各類人工翻譯活動并定期組織像2016年12月那樣的翻譯馬拉松。在這樣的活動中,公司向客戶提供智能手機和凈水器等獎品。通過這些活動收集的數(shù)據(jù)有助于增強百度翻譯引擎的性能,推動Deep Speech的進一步開發(fā)。
2016年7月,百度森尼韋爾團隊開發(fā)的軟件推出了首款商業(yè)應(yīng)用,這就是百度主打語音輸入的全功能智能手機輸入法TalkType。這一技術(shù)現(xiàn)已被應(yīng)用到公司的其他產(chǎn)品中,包括類似蘋果公司智能語音控制功能Siri的個人智能語音助理“度秘”,這是該產(chǎn)品在中國的名稱,在其他地方其被稱為DuEr。(度秘是由百度的“度”加上秘書的“秘”組合而成。DuEr的發(fā)音聽起來像“doer”。)
百度灌輸給Deep Speech的機器學習有助于其他產(chǎn)品智商的提高。例如,它就是類似亞馬遜Echo的聲控機器人“小魚在家”的秘密武器。百度公司2017年1月在拉斯韋加斯國際消費電子產(chǎn)品展(CES)上展示了這款機器人。
百度的多種網(wǎng)絡(luò)產(chǎn)品使其能夠獲得關(guān)于中國消費者最多最詳細的數(shù)據(jù),至少在理論上這應(yīng)讓其擁有為中國開發(fā)人工智能產(chǎn)品和服務(wù)的優(yōu)勢。得益于糯米和百度外賣,百度公司知道中國家庭買什么和吃什么,而全球第二大在線旅行服務(wù)公司攜程網(wǎng)(Ctrip.com)的信息則顯示出他們希望到哪里度假。每個月,6.65億智能手機使用者瀏覽百度的移動門戶網(wǎng)站并使用其應(yīng)用軟件。
與此同時,3.41億人使用百度地圖?!坝腥苏J為人工智能是個產(chǎn)品,這是錯誤的,人工智能為產(chǎn)品提供支持并使其具有各種功能,”匯豐控股有限公司(HSBC HoldingsPlc)的分析師曾池(Chi Tsang,音譯)說,“想一想所有產(chǎn)品的實際使用情況吧?!?/span>
新的人工智能產(chǎn)品尚未給百度帶來多少利潤。但它在人工智能領(lǐng)域初步形成的專業(yè)優(yōu)勢可能將有助于公司在已涉足領(lǐng)域占據(jù)主導(dǎo)地位并推動其開拓新的業(yè)務(wù),例如云計算和自動駕駛汽車等。
“未來3到5年,所有這些業(yè)務(wù)都可能成為另一個百度。”百度總裁張亞勤(Zhang Ya-Qin)說,他指的是百度602億美元的市值,“現(xiàn)在是時候下些賭注了?!?/span>