2016年12月6日,數(shù)以千計(jì)的翻譯人員涌入中國(guó)大陸各地的辦公樓,認(rèn)真研讀宣傳冊(cè)、信件和技術(shù)手冊(cè)等外文資料,并仔細(xì)地將這些資料翻成中文。這場(chǎng)翻譯馬拉松每天進(jìn)行15個(gè)小時(shí),持續(xù)了整整一個(gè)月。提供資料的客戶以低價(jià)得到了原文資料的專業(yè)級(jí)中文譯本,而組織這次大規(guī)模翻譯活動(dòng)的北京公司百度(Baidu Inc.)則可能獲得了更有價(jià)值的東西:訓(xùn)練百度在線翻譯引擎的數(shù)百萬對(duì)英中詞匯。
AI領(lǐng)域的領(lǐng)頭羊
中國(guó)已經(jīng)意識(shí)到,在人工智能領(lǐng)域,面對(duì)Alphabet、Facebook、國(guó)際商用機(jī)器公司(IBM)和微軟(Microsoft)等競(jìng)爭(zhēng)對(duì)手,低端模仿是行不通的。2017年2月,中國(guó)國(guó)家發(fā)展和改革委員會(huì)指定百度公司牽頭籌建新的人工智能實(shí)驗(yàn)室,這表明政府相信百度有能力成為中國(guó)人工智能領(lǐng)域的頂尖企業(yè)。
在3月初的新實(shí)驗(yàn)室揭牌儀式上,百度公司聯(lián)合創(chuàng)始人兼首席執(zhí)行官李彥宏稱,公司從2014年中至今的研發(fā)支出超過了人民幣200億元(約合29億美元),其中大部分都投在了人工智能上。2016年百度公司營(yíng)收增長(zhǎng)率從此前3年平均的逾30%降至6%左右,而對(duì)公司營(yíng)收貢獻(xiàn)最大的搜索廣告業(yè)務(wù)也遭到本地競(jìng)爭(zhēng)對(duì)手的圍剿。在截至2016年12月31日的財(cái)政年度,公司實(shí)現(xiàn)營(yíng)收人民幣705億元。據(jù)市場(chǎng)研究機(jī)構(gòu)EMarketer Inc.2016年9月發(fā)布的報(bào)告,阿里巴巴集團(tuán)控股有限公司(Alibaba Group HoldingLtd.)已超越百度公司成為中國(guó)數(shù)字廣告市場(chǎng)的領(lǐng)頭羊。
百度希望人工智能可以幫助公司收復(fù)搜索領(lǐng)域的失地,確保公司新業(yè)務(wù)取得成功。這對(duì)百度而言很重要,因?yàn)檫@家已有17年歷史的公司一直在努力推進(jìn)業(yè)務(wù)多元化,但結(jié)果卻是喜憂參半。
據(jù)中國(guó)國(guó)際金融有限公司(China International Capital Corp.)分析師納塔莉·吳(Natalie Wu)稱,在截至2017年2月的12個(gè)月,百度旗下團(tuán)購網(wǎng)站糯米的日訪客量下降了59%,旗下提供在線訂餐服務(wù)的百度外賣(Waimai)排名行業(yè)第三。此外,據(jù)華興資本證券(香港)有限公司[China RenaissanceSecurities(Hong Kong)Ltd.]的分析師埃拉·紀(jì)(Ella Ji)估計(jì),盡管百度旗下類似Netflix的流媒體視頻服務(wù)愛奇藝非常受歡迎,但2017年需要在內(nèi)容方面支出人民幣120億元。而多元化努力受挫則意味著百度進(jìn)軍人工智能領(lǐng)域的意義更加重大?!耙苿?dòng)互聯(lián)網(wǎng)時(shí)代已經(jīng)結(jié)束,”李彥宏3月10日接受采訪時(shí)說:“我們將對(duì)人工智能領(lǐng)域大舉投資,我認(rèn)為這將使很多人受益并將改變各個(gè)行業(yè)。”
2017年1月,百度任命前微軟公司高管陸奇(Qi Lu)為公司首席運(yùn)營(yíng)官,其使命是圍繞深度學(xué)習(xí)、增強(qiáng)現(xiàn)實(shí)和圖像識(shí)別等技術(shù)重塑公司。百度人工智能團(tuán)隊(duì)已擴(kuò)大至1300人,預(yù)計(jì)2017年還將增加幾百人。該團(tuán)隊(duì)的人員目前分散在北京、深圳、上海和加州森尼維爾的研究室。
近期頻繁發(fā)生人事變動(dòng)的百度人工智能部門
2015年年中,由50人組成的百度人工智能團(tuán)隊(duì)推出了Deep Speech,一個(gè)可識(shí)別大部分英語會(huì)話的語音識(shí)別系統(tǒng)。該系統(tǒng)通過對(duì)大量語音數(shù)據(jù)進(jìn)行解析后推斷出模型,而不是對(duì)詞語進(jìn)行逐字拆分,這一過程就是深度學(xué)習(xí)過程。和依靠詞匯表和音標(biāo)字典的傳統(tǒng)翻譯引擎相比,Deep Speech系統(tǒng)的識(shí)別準(zhǔn)確率更高,因?yàn)樵撓到y(tǒng)在確定每個(gè)詞的意思時(shí)考慮到了語境問題。
不過,在遇到外來詞時(shí),即英語中那些逐漸為人們所接受和使用的來自其他語言的詞匯,Deep Speech經(jīng)常會(huì)出錯(cuò)。“如果你想說‘放柴可夫斯基的音樂,’系統(tǒng)給出的答案可能是‘放音樂并嘗試咳嗽滑雪,’”科茨說,“我們就直接把這類問題稱為柴可夫斯基問題。”
百度的程序員沒有將“柴可夫斯基”簡(jiǎn)單地加入系統(tǒng)詞匯表,而是幫助Deep Speech教它自己理解這個(gè)詞。這涉及到輸入更多數(shù)據(jù)幫助系統(tǒng)學(xué)習(xí)語境問題。
百度公司駐北京的自然語言處理部副主管趙世奇(Shiqi Zhao)回憶說,當(dāng)時(shí)作為哈爾濱工業(yè)大學(xué)(Harbin Institute ofTechnology)計(jì)算機(jī)專業(yè)的一名學(xué)生,他在研究計(jì)算機(jī)翻譯時(shí)只有200萬對(duì)英中詞匯可供使用,現(xiàn)在百度有大約1億對(duì)。但這仍遠(yuǎn)遠(yuǎn)少于Alphabet公司擁有的5億對(duì)詞匯。這一數(shù)據(jù)是《科學(xué)》(Science)雜志上一篇關(guān)于Alphabet公司科學(xué)家QuocV.Le的文章中提到的。
人海戰(zhàn)術(shù)
為了縮小這一差距,百度采用了一種古老策略:人海戰(zhàn)術(shù)。公司現(xiàn)在常年贊助各類人工翻譯活動(dòng)并定期組織像2016年12月那樣的翻譯馬拉松。在這樣的活動(dòng)中,公司向客戶提供智能手機(jī)和凈水器等獎(jiǎng)品。通過這些活動(dòng)收集的數(shù)據(jù)有助于增強(qiáng)百度翻譯引擎的性能,推動(dòng)Deep Speech的進(jìn)一步開發(fā)。
2016年7月,百度森尼韋爾團(tuán)隊(duì)開發(fā)的軟件推出了首款商業(yè)應(yīng)用,這就是百度主打語音輸入的全功能智能手機(jī)輸入法TalkType。這一技術(shù)現(xiàn)已被應(yīng)用到公司的其他產(chǎn)品中,包括類似蘋果公司智能語音控制功能Siri的個(gè)人智能語音助理“度秘”,這是該產(chǎn)品在中國(guó)的名稱,在其他地方其被稱為DuEr。(度秘是由百度的“度”加上秘書的“秘”組合而成。DuEr的發(fā)音聽起來像“doer”。)
百度灌輸給Deep Speech的機(jī)器學(xué)習(xí)有助于其他產(chǎn)品智商的提高。例如,它就是類似亞馬遜Echo的聲控機(jī)器人“小魚在家”的秘密武器。百度公司2017年1月在拉斯韋加斯國(guó)際消費(fèi)電子產(chǎn)品展(CES)上展示了這款機(jī)器人。
百度的多種網(wǎng)絡(luò)產(chǎn)品使其能夠獲得關(guān)于中國(guó)消費(fèi)者最多最詳細(xì)的數(shù)據(jù),至少在理論上這應(yīng)讓其擁有為中國(guó)開發(fā)人工智能產(chǎn)品和服務(wù)的優(yōu)勢(shì)。得益于糯米和百度外賣,百度公司知道中國(guó)家庭買什么和吃什么,而全球第二大在線旅行服務(wù)公司攜程網(wǎng)(Ctrip.com)的信息則顯示出他們希望到哪里度假。每個(gè)月,6.65億智能手機(jī)使用者瀏覽百度的移動(dòng)門戶網(wǎng)站并使用其應(yīng)用軟件。
與此同時(shí),3.41億人使用百度地圖?!坝腥苏J(rèn)為人工智能是個(gè)產(chǎn)品,這是錯(cuò)誤的,人工智能為產(chǎn)品提供支持并使其具有各種功能,”匯豐控股有限公司(HSBC HoldingsPlc)的分析師曾池(Chi Tsang,音譯)說,“想一想所有產(chǎn)品的實(shí)際使用情況吧?!?/span>
新的人工智能產(chǎn)品尚未給百度帶來多少利潤(rùn)。但它在人工智能領(lǐng)域初步形成的專業(yè)優(yōu)勢(shì)可能將有助于公司在已涉足領(lǐng)域占據(jù)主導(dǎo)地位并推動(dòng)其開拓新的業(yè)務(wù),例如云計(jì)算和自動(dòng)駕駛汽車等。
“未來3到5年,所有這些業(yè)務(wù)都可能成為另一個(gè)百度?!?/span>百度總裁張亞勤(Zhang Ya-Qin)說,他指的是百度602億美元的市值,“現(xiàn)在是時(shí)候下些賭注了?!?/span>