上世紀九十年代,羅杰·凱在一家名為ILA的小型計算機語(yǔ)言學(xué)公司工作。那時(shí)候,美國麻省理工學(xué)院語(yǔ)言學(xué)教授諾姆·喬姆斯基的“普遍語(yǔ)法”理論吸引了一批追隨者,他試圖將所有人類(lèi)語(yǔ)言借用同一個(gè)模型進(jìn)行演繹。一開(kāi)始,羅杰和他的同事也試著(zhù)如此去設計語(yǔ)言模型,但他們很快發(fā)現,真實(shí)的語(yǔ)言常常違背這個(gè)模型,有太多反例讓這一理論顯得充滿(mǎn)任意性。
一種語(yǔ)言障礙亟須彌合的想法隨即映射進(jìn)他們腦中,這同樣是許多科技業(yè)巨頭想要打開(kāi)的一扇大門(mén)。谷歌從2009年開(kāi)始就一直在采錄語(yǔ)音信箱的信息;微軟則將類(lèi)似技術(shù)置入Windows Vista操作系統;蘋(píng)果的智能語(yǔ)音控制程序Siri則讓這種技術(shù)更趨商業(yè)。
附近有什么好吃的?我應該在哪搭乘公共交通?今晚的電影是幾點(diǎn)的?語(yǔ)音助手幫忙實(shí)現日程管理及查詢(xún),并回答常識問(wèn)題,令人著(zhù)迷。而消費電子產(chǎn)品、汽車(chē)甚至自動(dòng)呼叫中心“傾聽(tīng)”使用者的指令,已經(jīng)有數年時(shí)間。
一種能夠翻譯各種語(yǔ)言的“巴別魚(yú)”技術(shù)可能在不久的將來(lái)成為現實(shí),廣闊的產(chǎn)業(yè)應用空間漸漸打開(kāi)。
《圣經(jīng)》里有一個(gè)著(zhù)名的故事:人類(lèi)想上天堂,造巴別塔。上帝為阻止人類(lèi)登天,迫使人類(lèi)說(shuō)不同的語(yǔ)言。由于溝通不暢,巴別塔最終半途而廢。
有趣的是,英國作家道格拉斯·亞當斯在其廣為流傳的科幻小說(shuō)《銀河系漫游指南》中,提及一種能聽(tīng)懂外星人語(yǔ)言的小魚(yú),名字就叫“巴別魚(yú)”(Babelfish)。
今天,智能語(yǔ)音技術(shù)的發(fā)展令“巴別魚(yú)”的出現變得不再科幻。
“由于大量可供實(shí)時(shí)語(yǔ)音翻譯信息資源的存在,"巴別魚(yú)"系統正在走進(jìn)現實(shí)。”人工智能專(zhuān)家、南安普頓大學(xué)教授奈杰爾·沙德博爾特稱(chēng),未來(lái)市場(chǎng)出現類(lèi)似藍牙耳機的實(shí)時(shí)翻譯工具,是“非常自然的事情”。
遠不止于人與人之間,人類(lèi)和汽車(chē)、電視或者廚房電器“說(shuō)話(huà)”,也可能變得毫無(wú)障礙。智能語(yǔ)音技術(shù)正在改變我們發(fā)現信息的方法,相反的,它們也找到了進(jìn)入其他終端的途徑。
難怪英國媒體最近認定:科技業(yè)下一件大事,就是智能語(yǔ)音翻譯。
⊙記者 王宙潔 ○編輯 龔維松
語(yǔ)音識別日趨精準
現在,羅杰·凱已經(jīng)創(chuàng )辦了行業(yè)研究機構——Endpoint技術(shù)協(xié)會(huì ),但他仍然記得最初那段對機器語(yǔ)言的探索時(shí)光。
在近日的一篇專(zhuān)欄文章中,羅杰·凱回憶道:“喬姆斯基教授的理論依舊是我們中很多人的指路明燈。我們試著(zhù)去實(shí)現語(yǔ)言模型,但僅僅發(fā)現這只是一個(gè)工具而已,諸多反例讓我們明白,要做的可不僅僅是模型。”
羅杰在ILA工作時(shí)的好友戴夫·巴戈特認為,更高級的語(yǔ)言特征無(wú)法在模型里被描述,“音系學(xué)很容易理解,詞法學(xué)沒(méi)那么容易,句法就更難一點(diǎn),要理解語(yǔ)意,這幾乎沒(méi)成功過(guò)。”
事實(shí)上,對于語(yǔ)言識別的探索很早便已經(jīng)開(kāi)始。上世紀五十年代,貝爾實(shí)驗室組裝了一套原始系統,可以識別電話(huà)里報出的數字。盡管此后進(jìn)展算不上太快,但隨著(zhù)計算技術(shù)的不斷強化,如今的系統已經(jīng)可以處理各種口音、方言和怪異的聲調。
最近幾年,這種探索在科技業(yè)熱度高升。蘋(píng)果推出的語(yǔ)音助手Siri讓iPhone 4S風(fēng)靡的同時(shí),也使得聲音識別技術(shù)為更多普通人所認知并關(guān)注。
近日,蘋(píng)果公司又宣布推出車(chē)載iOS系統CarPlay,通過(guò)汽車(chē)與智能手機連接,再配合方向盤(pán)上的Siri按鈕,可實(shí)現電話(huà)、地圖、音樂(lè )或查看信息等功能。
而首批搭載CarPlay系統的汽車(chē),包括法拉利、奔馳和沃爾沃等汽車(chē)業(yè)巨頭。
外媒近日報道稱(chēng),微軟正著(zhù)力發(fā)展所謂自然交互科技,語(yǔ)音識別就是其中重要一環(huán)。
英特爾在今年1月份舉行的美國消費電子展上就曾宣布,將在今年推出的超薄筆記本電腦Ultrabook上采用一種新的語(yǔ)音控制技術(shù)。
在這些科技業(yè)大佬的背后,有一個(gè)名字不得不提:Nuance。
不僅僅是蘋(píng)果和三星旗下的熱門(mén)智能手機產(chǎn)品,航空公司甚至是頂級銀行的自動(dòng)呼叫中心也有著(zhù)它的身影。Nuance是一家語(yǔ)音識別技術(shù)公司。
研究機構Research and Markets近期發(fā)布報告稱(chēng),語(yǔ)音識別市場(chǎng)的主流趨勢之一,是“聲音密碼”越來(lái)越廣泛地被使用。
“一般的密碼很容易被記住,但同時(shí)也容易被破解,這帶來(lái)了安全方面的威脅。”該報告說(shuō),因此各大組織開(kāi)始越來(lái)越頻繁地使用生物密碼——往常的符號被人們的聲音所代替,聲音變成密碼并作為身份認證的依據。
更重要的是,聲音還擁有一個(gè)顯著(zhù)優(yōu)點(diǎn)——無(wú)法被復制。
根據該公司的研究,這一市場(chǎng)的主要驅動(dòng)因素之一,是對基于語(yǔ)音的生物識別或身份鑒定技術(shù)的需求。但目前主要的挑戰就是缺乏系統準確性。語(yǔ)音識別設備對嘈雜的環(huán)境極為敏感,這降低了準確率。
不過(guò),愛(ài)爾蘭聯(lián)合銀行從2008年開(kāi)始就嘗試通過(guò)聲音來(lái)鑒定員工的身份。VoiceVault生物測定系統能夠捕捉“語(yǔ)音痕跡”,該系統能識別打電話(huà)者的聲音,而后,還可以幫助用戶(hù)進(jìn)行重置密碼等工作。
用途可不局限于幫助員工修改密碼,在此之后,越來(lái)越多的金融服務(wù)公司也開(kāi)始使用這種系統打擊欺詐行為。
語(yǔ)音也可以“計算”
自然輸入方法從一開(kāi)始便是個(gè)人電腦行業(yè)的一大圣杯。在創(chuàng )建公司不久后,微軟CEO比爾·蓋茨便開(kāi)始尋找除了鍵盤(pán)和鼠標之外的,可以將數據輸入電腦的方法。
蓋茨認為,一定有某些本質(zhì)上是“奇怪的”輸入設備,最終會(huì )被人們接受。
2010年,微軟Kinect來(lái)了,手勢輸入從此風(fēng)靡。
但是聲音難以捉摸。聲音同時(shí)可被用于控制或翻譯,不過(guò)人們對語(yǔ)音轉為文字的精確度要求極高。海外媒體稱(chēng),按照目前的技術(shù)水平,一頁(yè)有300個(gè)英文單詞的文件中,平均每頁(yè)有3個(gè)錯誤,盡管正確率超過(guò)90%,但剩下的那小部分仍需長(cháng)途跋涉。
不過(guò),在羅杰·凱看來(lái),計算能力已經(jīng)變得更強大,語(yǔ)言數據庫也變得更加龐大。
依靠這些工具,類(lèi)似Nuance這樣的公司已經(jīng)幾乎轉向統計學(xué)方法。與其依靠語(yǔ)言模型這樣的老方法,商業(yè)性語(yǔ)音公司已經(jīng)開(kāi)始在他們的產(chǎn)品中采用關(guān)鍵字檢測以及基于規則的技術(shù)。
換句話(huà)說(shuō),基于資料庫和快速計算能力,它能夠確定一個(gè)單詞后面跟著(zhù)某個(gè)特定單詞的幾率,而不在意語(yǔ)法聯(lián)系。
“你不必在意喬姆斯基教授語(yǔ)言和意思的結構性,你可以用數學(xué)的方法來(lái)實(shí)現它。”羅杰·凱說(shuō)。
語(yǔ)音識別是第一步,之后,分析則是一項難度更大的工程。
盡管基于人工智能和語(yǔ)音識別的語(yǔ)音個(gè)人助手并不鮮見(jiàn),安卓平臺便同樣有類(lèi)似的程序如Voice Actions,但Siri的風(fēng)靡證明只是語(yǔ)音識別技術(shù)是不夠的,它還是一種人工智能形式,如今的系統還需要更強大的自學(xué)能力。
去年末,投資銀行Piper Jaffray的分析師設計了800道語(yǔ)音問(wèn)答題,考察蘋(píng)果Siri和谷歌Google Now的水平,結果后者獲得了進(jìn)步最快獎。
不過(guò),Siri也取得了一定的進(jìn)步。就在一年前,Siri還有27%的答案來(lái)自谷歌搜索,如今這個(gè)數字已經(jīng)大幅下降到4%。
英國媒體近日發(fā)表文章指出,語(yǔ)音翻譯將成為科技業(yè)下一件大事。《圣經(jīng)》有一個(gè)著(zhù)名的故事:人類(lèi)想上天堂,造巴別塔。上帝為阻止人類(lèi)登天,所以迫使人類(lèi)說(shuō)不同的語(yǔ)言。由于溝通不暢,巴別塔最終半途而廢。但英國作家道格拉斯·亞當斯曾在其小說(shuō)《銀河系漫游指南》中提及一種能夠聽(tīng)懂外星人語(yǔ)言的小魚(yú)“巴別魚(yú)”(Babelfish)。
如今,這種“小魚(yú)”科技的出現似乎變得有可能。人工智能專(zhuān)家、南安普頓大學(xué)教授奈杰爾·沙德博爾特稱(chēng),由于大量可供實(shí)時(shí)語(yǔ)音翻譯信息資源的存在,“巴別魚(yú)”系統正在走進(jìn)現實(shí),未來(lái)市場(chǎng)出現類(lèi)似藍牙耳機的實(shí)時(shí)翻譯工具是非常自然的事情。
在四、五年前,谷歌便開(kāi)始研發(fā)語(yǔ)音翻譯軟件,時(shí)任機器翻譯總裁的弗朗茲·歐克認為,實(shí)現語(yǔ)音翻譯是有可能的。他們在向著(zhù)讓這種服務(wù)運行流暢的方向努力,并且還需要結合高精度的機器翻譯和高精度的語(yǔ)音識別。
Google Now就是語(yǔ)音識別加人工智能技術(shù)最好的例證——它幫助用戶(hù)通過(guò)語(yǔ)音識別技術(shù)進(jìn)行網(wǎng)絡(luò )搜索。
谷歌搜索工程部副總裁斯科特·霍夫曼說(shuō),搜索領(lǐng)域目前正努力實(shí)現的是,根據用戶(hù)的聲音準確理解“用戶(hù)想要什么”,并給出符合需求的答案。
據海外媒體報道,谷歌已經(jīng)構筑了與人、地區、事件相關(guān)的數據庫“知識圖譜”等,因此語(yǔ)音搜索方式的實(shí)現指日可待。
而依靠一種名為語(yǔ)音輸入應用程序接口工具,谷歌旗下的瀏覽器Chrome 11 Beta版已經(jīng)可以理解用戶(hù)所說(shuō)的話(huà)。
下一步:搶奪更多入口
語(yǔ)音識別技術(shù)市場(chǎng)正在走向競爭激烈的十字路口。
海外媒體預計,隨著(zhù)語(yǔ)音識別將取代輸入、鍵盤(pán)、寫(xiě)字和觸摸,成為人機互動(dòng)最主要的界面,語(yǔ)音技術(shù)將遍布世界各個(gè)角落。
研究機構BCC曾發(fā)布報告預測,全球語(yǔ)音識別市場(chǎng)的規模到2017年會(huì )達到1130億美元,五年復合年增長(cháng)率高達16.2%。
該機構認為,語(yǔ)音識別市場(chǎng)將分化為三大終端市場(chǎng):企業(yè)、消費者以及健康保健。
在這其中,企業(yè)終端的市場(chǎng)規模將在2017年達到422億美元,復合年增長(cháng)率為15.9%;消費者終端則將以17.2%的五年復合年增長(cháng)率,在2017年達到651億美元的規模;健康保健終端在2017年的規模則將達到59億美元,復合年增長(cháng)率為9.4%。
語(yǔ)音識別系統Nuance公司是語(yǔ)音識別軟件Dragon的開(kāi)發(fā)者,這款軟件在醫療保健行業(yè)的應用已經(jīng)長(cháng)達十年之久。
當病人前去看病時(shí),內科醫生的桌面上運行Nuance的軟件,它便可以利用一個(gè)夾式微型話(huà)筒來(lái)錄音。隨著(zhù)問(wèn)診的推進(jìn),這款軟件會(huì )及時(shí)更新病人的電子健康記錄。
未來(lái)的語(yǔ)音識別功能也可以幫音樂(lè )愛(ài)好者大忙:用戶(hù)可以通過(guò)口述歌曲或歌手的名字進(jìn)行點(diǎn)播,并且它會(huì )記住用戶(hù)的喜好。
臉譜網(wǎng)曾收購一家語(yǔ)音識別和語(yǔ)言翻譯應用程序制造商Mobile科技公司。該公司旗下?lián)碛兄苿?dòng)應用程序Jibbigo Translator,這款應用可以自動(dòng)翻譯超過(guò)20種語(yǔ)言。
有分析稱(chēng),MT的技術(shù)確實(shí)能夠幫助臉譜網(wǎng)做許多事情,包括在未來(lái)實(shí)現跨語(yǔ)言聊天、旅行者語(yǔ)音翻譯和信息流即時(shí)翻譯等。此外,還有可能幫助臉譜網(wǎng)實(shí)現語(yǔ)音圖譜搜索。
汽車(chē)領(lǐng)域同樣是語(yǔ)音識別技術(shù)的重要陣地。
寶馬汽車(chē)已經(jīng)開(kāi)始提供語(yǔ)音識別服務(wù),通過(guò)數據中心進(jìn)行實(shí)時(shí)處理,轉換為文本并通過(guò)郵件發(fā)送,司機不需要動(dòng)手便可以完成這一系列動(dòng)作。
有報道稱(chēng),蘋(píng)果正致力于允許第三方服務(wù)與Siri進(jìn)行整合,以便使其智能手機上的數字助手能執行除本公司外的各項服務(wù),例如預訂航班和酒店,餐廳訂座,或在其他短信應用中發(fā)送文本等。
面對來(lái)自Google Now和微軟愈發(fā)激烈的競爭,蘋(píng)果被認為必須要升級Siri的功能。甚至有曝料稱(chēng),連語(yǔ)音識別公司Nuance也在提升其自己的數字助理Wintermute搜索各種第三方應用程序的能力。
不難想象,不久的將來(lái),可穿戴腕表、頭戴式終端、汽車(chē)、電視機甚至是襪子或是襯衫,所有物體都有望作為網(wǎng)絡(luò )終端使用,而通過(guò)語(yǔ)音提取所需信息的搜索和助手功能,將使這些終端更緊密地聯(lián)系并讀懂人類(lèi)的需求。
數說(shuō)科技
投資銀行Piper Jaffray的分析師設計了800道語(yǔ)音問(wèn)答題,考察蘋(píng)果Siri和谷歌Google Now的水平,結果后者獲得了進(jìn)步最快獎。不過(guò),蘋(píng)果語(yǔ)音智能助手Siri也取得了一定的進(jìn)步。在此一年前,Siri還有27%的答案來(lái)自谷歌搜索,如今這個(gè)數字已經(jīng)大幅下降到4%
聲音可被用于控制或是翻譯,但是人們對語(yǔ)音轉為文字的精確度要求極高。按照目前的技術(shù)水平,一頁(yè)有300個(gè)英文單詞的文件中,平均每頁(yè)有三個(gè)錯誤,盡管正確率超過(guò)90%,但剩下的那小部分仍需長(cháng)途跋涉
投資銀行Piper Jaffray的分析師設計了800道語(yǔ)音問(wèn)答題,考察蘋(píng)果Siri和谷歌Google Now的水平,結果后者獲得了進(jìn)步最快獎。不過(guò),蘋(píng)果語(yǔ)音智能助手Siri也取得了一定的進(jìn)步。在此一年前,Siri還有27%的答案來(lái)自谷歌搜索,如今這個(gè)數字已經(jīng)大幅下降到4%
研究機構BCC發(fā)布報告預測,全球語(yǔ)音識別市場(chǎng)的規模到2017年會(huì )達到1130億美元,五年復合年增長(cháng)率高達16.2%。該機構認為,語(yǔ)音識別市場(chǎng)將分化為三大終端市場(chǎng):企業(yè)、消費者以及健康保健
其中,企業(yè)終端的市場(chǎng)規模將在2017年達到422億美元,復合年增長(cháng)率為15.9%;消費者終端則將以17.2%的五年復合年增長(cháng)率,在2017年達到651億美元的規模;健康保健終端在2017年的規模則將達到59億美元,復合年增長(cháng)率為9.4%
臉譜網(wǎng)曾收購一家語(yǔ)音識別和語(yǔ)言翻譯應用程序制造商 Mobile Technologies,該公司旗下?lián)碛兄囊苿?dòng)應用程序Jibbigo Translator,這款應用可以自動(dòng)翻譯超過(guò)20種語(yǔ)言。有分析稱(chēng),MT的技術(shù)確實(shí)能夠幫助臉譜網(wǎng)做許多事情,包括在未來(lái)實(shí)現跨語(yǔ)言聊天、旅行者語(yǔ)音翻譯和信息流即時(shí)翻譯等