首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品

谷歌手機語(yǔ)音搜索幕后:一封郵件拉起中國團隊

2009/10/16

  谷歌9月15日宣布即將在華推出手機語(yǔ)音搜索的消息引起各方關(guān)注。谷歌中國工程研究院副院長(cháng)林斌,向新浪科技講述了如何從一封郵件開(kāi)始,建立這一項目中國團隊的幕后故事,并表示新服務(wù)不會(huì )為用戶(hù)帶來(lái)使用成本方面的負擔。

  14日中午11時(shí),谷歌負責全球移動(dòng)搜索的副總裁Vic Gundotra出現在谷歌中國總部,他此行的目的是向從兩岸三地匯集于此的媒體宣布,谷歌將于近期推出中文手機語(yǔ)音搜索服務(wù),這也是谷歌手機語(yǔ)音搜索首次推出非英語(yǔ)版本。

  在現場(chǎng)的中文手機語(yǔ)音搜索演示中,只要用戶(hù)對著(zhù)手機說(shuō)出想要搜索的內容,這一應用就能將用戶(hù)所發(fā)出的語(yǔ)音信息識別為文字,隨后自動(dòng)進(jìn)行搜索并迅速反饋回結果——無(wú)論你想要的是文字還是圖片。

  甚至在某些看似“極端”的情況下,比方故意發(fā)出略帶口音的普通話(huà)、或說(shuō)出一長(cháng)串的內容,谷歌中文手機語(yǔ)音搜索都能良好完成自己的任務(wù)。

  實(shí)際上,谷歌這項新技術(shù)的最核心的部分,已經(jīng)不是如何搜索到最佳的結果。

  如何準確識別出用戶(hù)發(fā)出的語(yǔ)音內容成為關(guān)鍵。而中文和英文之間的巨大差異,注定谷歌手機語(yǔ)音搜索推出中文版意味著(zhù)眾多關(guān)鍵技術(shù)的重構。領(lǐng)導中國團隊進(jìn)行這項工作的,正是谷歌中國工程研究院副院長(cháng)林斌。

  林斌最初接到這一任務(wù)的時(shí)候,谷歌手機語(yǔ)音搜索的英文版已初具雛形但尚未向外發(fā)布,林斌意識到要完成相應的中文版必須借助語(yǔ)音方面專(zhuān)業(yè)人員的力量。而就在谷歌中國總部的周?chē)锌圃汉颓迦A都有這方面的研究團隊。

  不過(guò)林斌并沒(méi)有依靠外援,他的最終選擇是發(fā)送了一封內部郵件:谷歌中國所有懂語(yǔ)音技術(shù)的工程師,立即集合。林斌的信心來(lái)源于谷歌中國此前就有五六位語(yǔ)音技術(shù)的專(zhuān)家,而且時(shí)任谷歌中國總裁的李開(kāi)復本身就是語(yǔ)音識別領(lǐng)域的權威。

  林斌對新浪科技表示,中國團隊所要面臨的挑戰之一就是構建分詞算法。英語(yǔ)不存在分詞的問(wèn)題,一個(gè)單詞就是一個(gè)單詞,而對于中文語(yǔ)音識別來(lái)說(shuō)分詞則是重要基礎。

  規則在此就變得尤為重要。語(yǔ)境分析是最好的判斷標準之一,林斌表示如果語(yǔ)境分析不足以判斷如何分詞,中文谷歌手機語(yǔ)音搜索將根據某一組詞出現的概率,由高到低進(jìn)行選取。

  另一個(gè)重要的工作是在全國范圍內采樣。雖然中文谷歌手機語(yǔ)音搜索主要支持的是普通話(huà)輸入,但考慮到更廣泛的用戶(hù)適用性,林斌的團隊還跑到中國各個(gè)地方去采集當地帶有方言腔調的普通話(huà)樣本。

  于是,就算不標準的普通話(huà)輸入,中文谷歌搜索也能識別,即便是夾雜著(zhù)英文的港臺腔,中文谷歌搜索也能識別。

  不止一個(gè)人會(huì )想到這一技術(shù),完全可以與谷歌眾多的產(chǎn)品相結合,比方谷歌辦公套件、谷歌輸入法、Gmail等等。

  Vic Gundotra表示之所以率先用在手機上,是因為這個(gè)平臺的需求最迫切,此后將在電腦平臺上進(jìn)行推廣,并表示將考慮將這一技術(shù)應用在更廣泛的輸入應用領(lǐng)域。林斌對此也表示不排除進(jìn)一步融合相關(guān)產(chǎn)品,但谷歌中國要與谷歌總部步調一致。

  談及這項谷歌耗費巨資的技術(shù)時(shí),Vic Gundotra用“many many years(很多很多年)”來(lái)形容研發(fā)過(guò)程的漫長(cháng)。而在這一基礎上,林斌和中國團隊僅用不到十個(gè)月的時(shí)間,就完成了中文版的全部工作,林斌說(shuō)推出其他語(yǔ)言版本的時(shí)間將越來(lái)越快。

  據介紹,中文版谷歌手機語(yǔ)音搜索采用云計算的模式工作,采集到的語(yǔ)音樣本將送到云端處理,轉化成文字內容。對于用戶(hù)而言,無(wú)疑會(huì )帶來(lái)手機數據傳輸流量的增加。

  對于谷歌這一新技術(shù)的使用成本,林斌直言并不會(huì )給用戶(hù)帶來(lái)明顯的負擔。林斌對新浪科技表示,谷歌的工程師將語(yǔ)音采樣的數據包進(jìn)行了深入的優(yōu)化,這使得通過(guò)用戶(hù)手機發(fā)送的數據非常小。

  林斌以自己為例說(shuō),目前他平均每天用手機語(yǔ)音搜索服務(wù)十次。據其推算按這一標準,購買(mǎi)5元包30M流量的資費套餐,足以應付谷歌中文手機語(yǔ)音搜索服務(wù)的要求。

新浪科技(tech.sina.com.cn)



相關(guān)鏈接:
RIM授予安信證券“成功用戶(hù)”稱(chēng)號 2009-10-16
微軟推移動(dòng)平臺 整合手機搜索、IM、SNS 2009-10-14
2013年全球手機支付金額將達6000億美元 2009-10-14
上海世博會(huì )即將推出手機票 2009-10-14
歐美手機導航用戶(hù)最信任谷歌地圖 2009-10-13

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 北海市| 宿松县| 科技| 屯昌县| 穆棱市| 云浮市| 介休市| 石渠县| 洪雅县| 江永县| 方正县| 且末县| 囊谦县| 灌南县| 巴林左旗| 齐齐哈尔市| 龙州县| 上饶市| 正镶白旗| 天水市| 乐安县| 扶风县| 九江市| 北碚区| 雅江县| 满城县| 北安市| 阿拉善右旗| 宾阳县| 莱州市| 咸宁市| 沐川县| 璧山县| 延吉市| 晋中市| 昭平县| 阿拉善盟| 温宿县| 丹江口市| 孟连| 大英县| http://444 http://444 http://444 http://444 http://444 http://444