顏永紅:“搜索”語(yǔ)音識別技術(shù)的未來(lái)
2010/05/28
顏永紅:中科院聲學(xué)所中科信利語(yǔ)音識別實(shí)驗室主任。
1990年畢業(yè)于清華大學(xué),1995年獲得美國俄勒岡研究院博士學(xué)位,后在該校任教,曾擔任OGI口語(yǔ)研究中心的副主任、英特爾微處理器實(shí)驗室的主任工程師和人機界面總框架師,英特爾中國研究中心的主任和首席研究員,英特爾全球人機界面學(xué)術(shù)委員會(huì )主席。
2002年入選中科院百人計劃,任聲學(xué)所研究員、博士生導師,中科信利語(yǔ)音實(shí)驗室主任和所長(cháng)助理。長(cháng)期從事人機界面研究工作,目前從事的研究領(lǐng)域:大詞表非特定人連續語(yǔ)音識別,多模口語(yǔ)系統,嵌入式系統,多媒體數據檢索,系統自適應和快速搜索算法。
10年前,他曾是英特爾微處理器實(shí)驗室的主任工程師和人機界面總框架師,英特爾中國研究中心的主任和首席研究員。
如今,他一手創(chuàng )辦的中科院聲學(xué)所中科信利語(yǔ)音識別實(shí)驗室已發(fā)展成為國內語(yǔ)言聲學(xué)領(lǐng)域規模最大、學(xué)科最全的實(shí)驗室,與實(shí)驗室同時(shí)成立的中科信利技術(shù)有限公司也取得了長(cháng)足的發(fā)展。
兩個(gè)“孩子”的長(cháng)大讓他倍感欣慰。而同時(shí),他錯過(guò)了兩個(gè)寶貝女兒的成長(cháng),這是他最遺憾的。
“沒(méi)有什么后悔的,時(shí)間無(wú)法倒流,只能往前看。”中科院聲學(xué)所中科信利語(yǔ)音識別實(shí)驗室主任顏永紅說(shuō)。
一項技術(shù),牽制搜索引擎
“在不久的將來(lái),互聯(lián)網(wǎng)將成為一個(gè)浩大的音視頻檔案庫,對下一代搜索引擎來(lái)說(shuō),語(yǔ)音識別技術(shù)是關(guān)鍵。”顏永紅說(shuō)。
在浩繁的音視頻數據庫中,要查找出所需的音視頻片斷,已經(jīng)成為困擾互聯(lián)網(wǎng)搜索的難題——目前的技術(shù)主要是搜索音視頻的關(guān)鍵詞,比如音視頻的名字或作者,并沒(méi)有辦法搜索音視頻內容。而通過(guò)語(yǔ)音識別技術(shù),可以把多媒體文件變成可識別的計算機語(yǔ)言,從而有效快速的實(shí)現準確搜索。
事實(shí)上,語(yǔ)音識別技術(shù)也是各大公司競爭的一大焦點(diǎn)。
去年11月份,谷歌推出的語(yǔ)音搜索引起極大關(guān)注。用戶(hù)只需在手機上安裝一個(gè)軟件,然后利用手機原有的麥克風(fēng),用普通話(huà)對手機說(shuō)出需要查詢(xún)的內容,谷歌中文語(yǔ)音搜索會(huì )自動(dòng)返回整合的搜索結果。
“從實(shí)驗室成立到現在,我們一直在做這方面的技術(shù)積累,很快,我們和國內公司合作的語(yǔ)音搜索將面世。”顏永紅笑著(zhù)說(shuō)。
目前,中科信利的中文電視廣播新聞節目識別系統,就已經(jīng)被多家公司采用,并作為其提供給全國各電視臺的數字媒體管理系統中一個(gè)核心技術(shù)模塊。
這個(gè)系統立刻引起本報記者的強烈興趣——當系統“收聽(tīng)”到一段“新聞聯(lián)播”節目,自動(dòng)將節目?jì)热萆晌淖郑⑶易R別準確率驚人地高。
“那是不是我們的采訪(fǎng)錄音直接可以被轉化成文字?”記者頓時(shí)興致勃勃。
“現在還不行。”顏永紅笑著(zhù)說(shuō),“因為語(yǔ)音識別包括語(yǔ)言模型和聲學(xué)模型,新聞?wù)Z(yǔ)言可以建立語(yǔ)言模型,但口語(yǔ)卻很難建立語(yǔ)言模型。”
在語(yǔ)音識別實(shí)驗室里,視頻精確搜索已不是問(wèn)題。
在一段王楠比賽的視頻中,你只要輸入“側身?yè)尷薄ⅰ扒叭濉钡汝P(guān)鍵詞,就可以找到精確到秒的視頻。這就意味著(zhù),如果你想找一部電影里的精彩片段,只需記得其中的經(jīng)典臺詞即可搜索。
兩塊牌子,連起創(chuàng )新鏈條
顏永紅記得,語(yǔ)音實(shí)驗室獲得的第一筆項目經(jīng)費來(lái)自科技部863項目2003年語(yǔ)音識別領(lǐng)域的比賽。“我們的識別率是最高的,獲得了20萬(wàn)元的項目。”
如今,上千萬(wàn)的課題在這里已不是新聞。他領(lǐng)導的這個(gè)年輕的團隊,已獲得授權發(fā)明專(zhuān)利22項;軟件著(zhù)作權登記36項;有30余項發(fā)明專(zhuān)利正在審查中;在國內外各種學(xué)術(shù)會(huì )議和刊物上,已經(jīng)發(fā)表了200多篇學(xué)術(shù)文章。
中科信利技術(shù)有限公司在業(yè)內也小有名氣,人們將他看成顏永紅的“著(zhù)作”之一。
事實(shí)上,8年前,公司的成立僅僅是給科研人員“畫(huà)了個(gè)餅”。
“科研人員不會(huì )成為富翁,但是至少應該體面地工作、體面地生活,所以,成立一個(gè)公司,讓大家研發(fā)出來(lái)的技術(shù)有一個(gè)走出去的載體,這就是田靜所長(cháng)和我當時(shí)的想法。”顏永紅說(shuō)。于是,在只有100多萬(wàn)元啟動(dòng)資金的情況下,中科信利成立。
萬(wàn)事開(kāi)頭難。“公司前幾年都沒(méi)有收入,最困難的時(shí)候甚至瀕臨倒閉了。”說(shuō)這話(huà)時(shí),顏永紅是微笑的,但笑容背后的艱辛是旁觀(guān)者無(wú)法體會(huì )的,而他也不愿多言。
峰回路轉,中科信利等到了第一次商機。其研發(fā)的產(chǎn)品嵌入式語(yǔ)音軟件被應用在了手機上,這就是大家比較熟悉的語(yǔ)音撥號。
“有些人的手機里存了幾百上千個(gè)電話(huà)號碼,找起來(lái)很麻煩,安裝這一軟件后,只要對著(zhù)手機叫出對方名字,即可調出他的資料。”顏永紅介紹道。
這個(gè)嵌入式語(yǔ)音軟件支持語(yǔ)音撥號、命令控制、來(lái)電短信提醒、語(yǔ)音讀出短信、連呼數字撥號等功能。此外,他們還開(kāi)發(fā)出基于分布式集群架構的語(yǔ)音處理平臺TSE。
“在此之前,電信級語(yǔ)音識別引擎技術(shù)完全被美國公司壟斷,但現在我們完全有底氣說(shuō),我們占據了大半壁江山。”言至此,顏永紅的語(yǔ)調高了很多。確實(shí),在國內,真正能夠將語(yǔ)音識別產(chǎn)品拿出來(lái),放在電信網(wǎng)上規模使用的,也只有中科信利。
語(yǔ)音實(shí)驗室承擔著(zhù)國家科研任務(wù),中科信利公司開(kāi)發(fā)語(yǔ)音技術(shù)產(chǎn)品,這兩個(gè)牌子的作用互為配合,相得益彰。顏永紅介紹說(shuō):“實(shí)用技術(shù)的推廣應用,不是所有實(shí)驗室的人員能夠勝任的事情。在科技創(chuàng )新的整個(gè)鏈條上,我們分為概念產(chǎn)生、原理研究、原理性樣機研制、產(chǎn)品化、市場(chǎng)推廣,總共為五個(gè)階段。語(yǔ)音實(shí)驗室基本承擔前三段,后兩段則由中科信利技術(shù)有限公司完成。”
“十一五”期間的策略是由公司支持實(shí)驗室,而“十二五”期間,需要大力發(fā)展公司。顏永紅說(shuō):“下一步我們需要積極探索,怎樣通過(guò)發(fā)展公司帶來(lái)更多機會(huì ),打破實(shí)驗室發(fā)展的瓶頸。”
《科技日報》
相關(guān)閱讀:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
轮台县|
民乐县|
温宿县|
巴东县|
酒泉市|
梁平县|
保定市|
汕头市|
宁武县|
理塘县|
安吉县|
肥城市|
恩施市|
昌宁县|
朝阳区|
金华市|
秦皇岛市|
万盛区|
湘乡市|
南澳县|
大石桥市|
瓦房店市|
阜新|
仁怀市|
屏山县|
潍坊市|
中西区|
藁城市|
花莲市|
绥阳县|
饶阳县|
孟津县|
中西区|
博白县|
黑山县|
普安县|
永和县|
普宁市|
文安县|
汕头市|
永春县|
http://444
http://444
http://444
http://444
http://444
http://444