首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品

互聯(lián)網(wǎng)周刊:當語(yǔ)音識別技術(shù)遇到網(wǎng)絡(luò )視頻

李洋 2007/10/30

  當語(yǔ)音識別技術(shù)遇到互聯(lián)網(wǎng),視頻搜索又有了新的可能。

  計算機可以輕松處理文本,但對語(yǔ)音卻沒(méi)那么容易。在過(guò)去的20年里,研究人員一直在努力讓人和計算機搭上腔。語(yǔ)音識別技術(shù)因此變得成熟。現在,你已經(jīng)可以通過(guò)聲音來(lái)“命令”計算機做一些簡(jiǎn)單的操作,你所講的話(huà)也能夠被順利地識別為一段文字。而當視頻互聯(lián)網(wǎng)時(shí)代到來(lái)后,人們對語(yǔ)音技術(shù)又有了新的期望。

  隨著(zhù)互聯(lián)網(wǎng)上音視頻文件的不斷增多,如何進(jìn)行準確的檢索成為一大難題。目前,大多數搜索引擎的做法是根據視音頻文件自帶的文字介紹,以及上下文環(huán)境來(lái)判斷;或者通過(guò)Web2.0常用的Tag(標簽)及朋友的推薦信息來(lái)確定視頻內容。但這些方式的缺點(diǎn)也像其優(yōu)點(diǎn)一樣顯而易見(jiàn)。一旦視頻名稱(chēng)或者文字信息不全面,就會(huì )使你跟很多精彩內容擦肩而過(guò)。

  另一種做法是從內容和視覺(jué)方面做文章。比如,微軟亞洲研究院華先勝研究員的一項基于內容的視頻搜索技術(shù),可以通過(guò)訓練計算機對內容場(chǎng)景進(jìn)行學(xué)習,從而能夠彌補上述的不足,搜索到視頻里面去。但這種方法在有些場(chǎng)合也有其局限性。比如,類(lèi)似《鏘鏘三人行》的談話(huà)類(lèi)節目,每期的場(chǎng)景和人物都相對固定,視頻內容提供的信息就非常有限了。而對于這類(lèi)以談話(huà)、評論或播報為主的節目來(lái)說(shuō),利用語(yǔ)音識別技術(shù)針對語(yǔ)音內容進(jìn)行檢索,便成為一種更為有效的方法。

  互聯(lián)網(wǎng)上的視頻、聲音質(zhì)量參差不齊,內容更是包羅萬(wàn)象,如果將傳統的語(yǔ)音識別技術(shù)直接應用于互聯(lián)網(wǎng)視頻搜索,識別準確性很低(通常只能達到50%~70%),而信息丟失率很高。因此,微軟亞洲研究院的余鵬研究員所在的研究小組提出了一項“詞格”索引技術(shù)。簡(jiǎn)單來(lái)說(shuō),這項技術(shù)的原理就是在分析語(yǔ)音內容的時(shí)候為系統提供多個(gè)候選信息。據余鵬介紹,通過(guò)實(shí)驗得出的結論,這一方式可以將準確性提高50%~150%。

  舉個(gè)例子。當我們識別“歡迎來(lái)到微軟研究院”這樣一段語(yǔ)音片段時(shí),系統將會(huì )提供多個(gè)候選信息,“歡迎”可能是“幻影”,“來(lái)到”可能是“來(lái)道”,“微軟”也有可能是“未來(lái)”,“研究院”也可以分解產(chǎn)生“煙酒業(yè)”、“洋酒”、“眼鏡院”等多種候選信息。

  被識別出的每個(gè)短詞都帶有起止的時(shí)間信息作為標識這一詞的節點(diǎn)。時(shí)間點(diǎn)接近的短詞便可以連接為一句話(huà)。比如上面的例子,除了出現正確的答案外,還可能會(huì )出現“幻影來(lái)到未來(lái)煙酒業(yè)”等多種可能的候選。

  看到這里你可能會(huì )問(wèn):“在如此多的候選句子中,系統會(huì )優(yōu)先選擇哪個(gè)識別結果呢?”實(shí)際上,對于每個(gè)識別出的短詞,這項技術(shù)還配有一個(gè)代表置信度的得分。而這個(gè)得分來(lái)自系統的概率統計,代表該詞成立的可能性。系統有“聲音”和“語(yǔ)言”兩個(gè)模型,分別從發(fā)聲和人類(lèi)語(yǔ)言習慣的角度來(lái)對計算機進(jìn)行訓練,使之可以在識別時(shí)做出基于概率統計的判斷。

  如此一來(lái),丟失率的問(wèn)題便獲得了很好的解決。同時(shí),通過(guò)對時(shí)間節點(diǎn)接近的多候選信息采用類(lèi)似“合并同類(lèi)項”等優(yōu)化方法,可以剔除大批的冗余信息,從而可最終獲得較高的準確性和搜索效率。

  而你能想象這項技術(shù)帶來(lái)的便捷嗎?你將再也不用花時(shí)間點(diǎn)擊每個(gè)視頻文件了—當你輸入一個(gè)關(guān)鍵詞,比如“北京奧運會(huì )”,系統給出的每個(gè)搜索結果中都會(huì )實(shí)時(shí)列出包含關(guān)鍵字的上下文。你可以以此來(lái)確認內容,也可以直接點(diǎn)擊其中標粗的關(guān)鍵字,位于搜索頁(yè)面右邊的播放器便會(huì )自動(dòng)轉到相關(guān)內容進(jìn)行播放。還記得上面提到的時(shí)間節點(diǎn)嗎?對,它存在的另一個(gè)意義便在于此。而你甚至還能從每個(gè)結果下方的音頻條,形象地了解這一關(guān)鍵詞在這段視頻中出現的位置和頻率。

互聯(lián)網(wǎng)周刊



相關(guān)鏈接:
語(yǔ)音分析 讓你知道客戶(hù)在笑還是在哭 2007-09-06
聲音識別:下一代手機輸入接口 2007-08-21
與電腦面談 2007-07-06
空口有憑:用聲音來(lái)付賬 2007-06-25
智能通信終端的關(guān)鍵技術(shù)研究 2007-06-19

分類(lèi)信息:        
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 上饶市| 东宁县| 绩溪县| 大方县| 灵寿县| 枣强县| 古蔺县| 禹城市| 双江| 武夷山市| 霍城县| 金乡县| 无极县| 九龙城区| 浦东新区| 利津县| 洛川县| 翼城县| 房产| 留坝县| 罗江县| 武平县| 漠河县| 拉孜县| 蒙山县| 凉城县| 石棉县| 桐城市| 盐边县| 黎城县| 丹江口市| 天镇县| 南乐县| 科技| 绥棱县| 溧水县| 仪征市| 尚志市| 泊头市| 太仆寺旗| 鞍山市| http://444 http://444 http://444 http://444 http://444 http://444