首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品

聲音的力量:對話(huà)谷歌語(yǔ)音技術(shù)負責人

2011/02/17

  北京時(shí)間2月16日消息,據國外媒體報道,知名科技博客TechCrunch作者賈森·金凱德(Jason Kincaid)發(fā)表文章,講述了他與谷歌語(yǔ)音技術(shù)負責人邁克·科恩(Mike Cohen)最近進(jìn)行的一次談話(huà),內容涉及谷歌大力投入語(yǔ)音技術(shù)的原因及發(fā)展前景。
谷歌語(yǔ)音技術(shù)負責人邁克·科恩(Mike Cohen)

谷歌語(yǔ)音技術(shù)負責人邁克·科恩(Mike Cohen)

  以下為全文摘要:

  盡管智能手機應用程序花樣翻新,層出不窮,但是如果你拿出手機,說(shuō)一聲“尋找到科技館的道路”,谷歌就會(huì )立即照做的話(huà),你仍然會(huì )感到這個(gè)情景有點(diǎn)不太尋常。語(yǔ)音技術(shù)通過(guò)iPhone應用程序,以及與Android的深度整合,正在變得日益普遍,而這實(shí)際上僅僅是一個(gè)開(kāi)始。

  回顧過(guò)去

  在討論現在的狀況之前,我們先來(lái)回顧一下科恩過(guò)去的經(jīng)歷,也可以說(shuō)這是在回顧語(yǔ)音技術(shù)的歷史,因為雖然科恩從2004年開(kāi)始一直在谷歌工作,但他自80年代初在斯坦福研究院做研究時(shí)起,就站在語(yǔ)音和技術(shù)的交匯之處,至今已經(jīng)幾十年了。

  科恩說(shuō),在20世紀70年代語(yǔ)音工作有兩大陣營(yíng):語(yǔ)言學(xué)家和工程師。語(yǔ)言學(xué)家強調規則——他們會(huì )找出語(yǔ)法和發(fā)音上的各種趨勢,以及每一個(gè)音素如何與其他音素互動(dòng)。工程師們則采用了不同的方法:他們的目標不是試圖以人工方式精心確定每個(gè)規則,而是構建復雜的統計模型,當有更多的語(yǔ)音數據輸入到這些模型中時(shí),它們就會(huì )得以改進(jìn)。

  到了70年代末和80年代初,當科恩開(kāi)始在斯坦福研究院做研究時(shí),工程師們正處于領(lǐng)先位置,但是存在著(zhù)這樣一個(gè)問(wèn)題:統計模型的改進(jìn)已經(jīng)開(kāi)始形成漸近線(xiàn)。科恩解釋說(shuō),因為這些模型總是相同的,向它們輸入更多的數據終究會(huì )出現報酬遞減(例如他們的模型不善于識別發(fā)音在多大程度上取決于哪些詞被說(shuō)出,又在多大程度上取決于上下文是什么)。工程師們需要找到一種方式來(lái)建立更好的模型,所以他們終于開(kāi)始與語(yǔ)言學(xué)家們合作,造就了另一波研究熱潮。

  到90年代初,語(yǔ)音技術(shù)已經(jīng)獲得了長(cháng)足的發(fā)展,研究人員創(chuàng )建了航空旅游信息系統(ATIS,Air Travel Information System,用戶(hù)可以走到一個(gè)終端,說(shuō)“告訴我從波士頓出發(fā)的航班”,計算機就會(huì )顯示相關(guān)數據。該系統可以識別這些命令無(wú)數種的變化,因此你不必記住某些關(guān)鍵字)。在Windows 95面市時(shí)就有了ATIS這樣的系統,這讓人覺(jué)得有些不可思議。

  在A(yíng)TIS獲得成功的基礎上,科恩認為這項技術(shù)已經(jīng)做好了商業(yè)應用的準備,所以他和三個(gè)聯(lián)合創(chuàng )始人創(chuàng )辦了Nuance公司,為需要處理大量呼入電話(huà)的大公司建立自動(dòng)電話(huà)系統(電話(huà)公司的客戶(hù)服務(wù)系統就是一個(gè)例子)。

  科恩繼續尋找改善Nuance語(yǔ)音識別軟件的方法(鑒于他曾是一位研究者,這也就不足為奇了)。而且事實(shí)證明,海量的呼入錄音比他在斯坦福研究院做研究時(shí)獲得的數據更加有用,因為有些東西無(wú)法在實(shí)驗室環(huán)境中重現,比如背景中的狗叫聲,孩子的哭聲等等,而這些聲音會(huì )出現在呼入的電話(huà)中,所以Nuance面臨著(zhù)語(yǔ)音分析的重大新挑戰。

  但這里有一個(gè)很大的問(wèn)題:盡管Nuance的技術(shù)正在處理大量數據,Nuance公司還是必須向它的每個(gè)企業(yè)客戶(hù)提出請求,以便獲得這些數據用于研究目的。這樣做對企業(yè)有好處,因為它們能從技術(shù)改進(jìn)中獲益,但一些企業(yè)仍然對此持謹慎態(tài)度。這最終導致科恩進(jìn)入了谷歌。

  GOOG-411項目

  在2004年前,谷歌基本上沒(méi)有語(yǔ)音技術(shù),但是科恩看到了機會(huì )。即使在那個(gè)時(shí)候,手機將對未來(lái)技術(shù)產(chǎn)生巨大影響的跡象就很明顯。而且,由于谷歌直接面對最終用戶(hù),它收到的任何語(yǔ)音數據都可以方便地用于研究目的。于是科恩進(jìn)入谷歌,著(zhù)手開(kāi)展GOOG-411項目,后來(lái)它成為谷歌的免費411語(yǔ)音服務(wù)。

  這項服務(wù)在2007年推出,它提供了一個(gè)簡(jiǎn)單方便的功能集:你給它打電話(huà)詢(xún)問(wèn)一些基本信息,比如一個(gè)企業(yè)的電話(huà)號碼,它就會(huì )馬上為你提供相關(guān)信息,而且是免費的。科恩說(shuō),推出GOOG-411的主要原因就是“它有用”,但它還有一個(gè)重要的副作用:谷歌從此開(kāi)始建立一個(gè)龐大的語(yǔ)音數據庫。還記得前面討論過(guò)的數據模型嗎?谷歌語(yǔ)音系統在概念上與之類(lèi)似,但是規模大得多。

  GOOG-411項目在十月份取消了,但這時(shí)谷歌已經(jīng)有了更多的語(yǔ)音數據輸入方式,包括在A(yíng)ndroid上到處可見(jiàn)的麥克風(fēng)按鈕,以及Google Mobile的iPhone應用程序。而且谷歌可以查看基于文本的搜索查詢(xún)詞條,確定一個(gè)詞后面出現得最頻繁的是哪個(gè)詞。這一切都意味著(zhù)谷歌可以相對較快地改進(jìn)其語(yǔ)言模型。

  科恩說(shuō),如今谷歌使用2300億個(gè)搜索查詢(xún)詞條來(lái)“培訓”其語(yǔ)音識別功能所使用的語(yǔ)言模型。為了形象地說(shuō)明數據量有多大,科恩說(shuō),如果只用一個(gè)CPU,這個(gè)“培訓”需要70年時(shí)間才能完成。

  這項技術(shù)現在已經(jīng)用在谷歌的多種產(chǎn)品中。YouTube自動(dòng)為數百萬(wàn)視頻添加了字幕。谷歌語(yǔ)音服務(wù)嘗試將呼入的語(yǔ)音郵件轉錄成文字(產(chǎn)生了一些非常滑稽的結果)。語(yǔ)音搜索將在移動(dòng)設備上發(fā)揮更大的作用,所以,如果在不太遙遠的將來(lái),你看到配有媒體中心的車(chē)輛在運行Android,請不要感到驚訝,它們肯定帶有語(yǔ)音功能。

  科恩很高興地談起谷歌在聲音技術(shù)上做出的努力,但他沒(méi)有透露統計數據,即將發(fā)布的功能,也沒(méi)有做出預測。科恩承認,谷歌語(yǔ)音搜索的量波動(dòng)很大,取決于是否有新的帶有語(yǔ)音功能的服務(wù)推出,以及是否報刊最近進(jìn)行了報道。

  當我問(wèn)他,多久之后語(yǔ)音搜索將變得非常準確,以至于我們可以將它視為理所當然(指不需要再檢查文字的拼寫(xiě)錯誤),雖然他說(shuō)了類(lèi)似于“五年”這樣話(huà)(對于研究工作而言,這相當于是說(shuō)“我不知道”),但他不愿意談及具體計劃。

  我也問(wèn)過(guò)他,對蘋(píng)果在語(yǔ)音技術(shù)方面采取的行動(dòng)有什么想法(蘋(píng)果去年收購了以語(yǔ)音搜索技術(shù)為主的公司Siri,很明顯蘋(píng)果想把將語(yǔ)音技術(shù)納入到iOS中),科恩同樣也沒(méi)有這個(gè)問(wèn)題上說(shuō)多少(雖然這并不令人感到驚訝)。他只是說(shuō),谷歌已經(jīng)推出了一個(gè)產(chǎn)品,因此擁有數據量大的天然優(yōu)勢,但這個(gè)問(wèn)題的答案最終將歸結于蘋(píng)果開(kāi)發(fā)了什么產(chǎn)品以及它與誰(shuí)合作。

  不過(guò),雖然科恩沒(méi)有談及具體細節,他卻講到了谷歌語(yǔ)音技術(shù)的長(cháng)遠目標:讓語(yǔ)音輸入變得無(wú)處不在。 “就像你可以在很多地方用鍵盤(pán)輸入文本,你也應該可以在很多地方使用語(yǔ)音輸入。”而準確性是其中的一個(gè)要點(diǎn) “它需要極為‘接近完美’,人們選擇使用語(yǔ)音輸入不在于它的表現,而在于最終用戶(hù)的喜好。”

騰訊科技



相關(guān)閱讀:
捷通華聲開(kāi)啟語(yǔ)音手寫(xiě)識別智能云服務(wù) 2011-02-16
三大電信運營(yíng)商爭做語(yǔ)音微博 名人帶動(dòng)引關(guān)注 2011-02-16
DCI體系助運營(yíng)商建立有效“防火墻” 2011-02-15
各大移動(dòng)公司相繼推WAC應用程序 試圖搶占制高點(diǎn) 2011-02-15
移動(dòng)互聯(lián)網(wǎng)市場(chǎng)井噴 超越互聯(lián)網(wǎng)指日可待 2011-02-15

熱點(diǎn)專(zhuān)題:  語(yǔ)音合成TTS 語(yǔ)音識別ASR    移動(dòng)互聯(lián)網(wǎng)
分類(lèi)信息:  移動(dòng)互聯(lián)網(wǎng)_與_語(yǔ)音應用  移動(dòng)互聯(lián)網(wǎng)_與_移動(dòng)  移動(dòng)互聯(lián)網(wǎng)_與_移動(dòng)

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 云南省| 贵定县| 工布江达县| 禹州市| 开阳县| 开江县| 德惠市| 读书| 长治市| 娄烦县| 肇庆市| 晋州市| 益阳市| 乌拉特后旗| 富源县| 宁城县| 兰溪市| 铜陵市| 增城市| 白朗县| 昌吉市| 乌海市| 晋州市| 吉木乃县| 镇江市| 东山县| 龙岩市| 牙克石市| 张家港市| 逊克县| 阿图什市| 县级市| 岗巴县| 赤壁市| 惠来县| 东乌珠穆沁旗| 安国市| 织金县| 瑞金市| 井陉县| 平阴县| http://444 http://444 http://444 http://444 http://444 http://444