科大訊飛董事長(cháng)劉慶峰介紹語(yǔ)音云概念
2010/10/29
10月28日消息,“科大訊飛‘語(yǔ)音云’發(fā)布會(huì )暨移動(dòng)互聯(lián)網(wǎng)語(yǔ)音創(chuàng )新論壇”在北京香格里拉飯店召開(kāi),圖為科大訊飛董事長(cháng)劉慶峰介紹語(yǔ)音云概念。圖:科大訊飛董事長(cháng)劉慶峰介紹語(yǔ)音云概念
科大訊飛在本次發(fā)布會(huì )上推出全球首個(gè)同時(shí)提供語(yǔ)音合成、語(yǔ)音搜索、語(yǔ)音聽(tīng)寫(xiě)等智能語(yǔ)音交互能力的移動(dòng)互聯(lián)網(wǎng)智能交互平臺——“訊飛語(yǔ)音云”。
以下為劉慶峰現場(chǎng)講演實(shí)錄:
尊敬的各位領(lǐng)導和嘉賓,大家下午好。感謝周光召先生和柳傳志先生的精彩演講,讓我們對我們民族語(yǔ)音產(chǎn)業(yè)的發(fā)展更是充滿(mǎn)了斗志和昂揚的信心。就像剛才兩位領(lǐng)導所說(shuō)的那樣,語(yǔ)音作為溝通和獲取信息最便捷的手段和方式,具有廣闊的應用前景。而今天伴隨著(zhù)語(yǔ)音核心技術(shù)的不斷突破,伴隨著(zhù)移動(dòng)互聯(lián)網(wǎng)終端的不斷升級,以及后臺大規模服務(wù)并發(fā)文件的不斷升級,在當前這個(gè)時(shí)代,應用新的架構,讓客戶(hù)能夠用到最好的語(yǔ)音技術(shù),我們覺(jué)得時(shí)機已經(jīng)成熟。那么今天,科大訊飛在業(yè)界率先發(fā)布的包含語(yǔ)音的移動(dòng)互聯(lián)網(wǎng)的應用和平臺,我們相信一定會(huì )對中國語(yǔ)音產(chǎn)業(yè)乃至移動(dòng)互聯(lián)網(wǎng)的發(fā)展起到非常重要的推動(dòng)作用。
下面我首先給大家匯報一下語(yǔ)音產(chǎn)業(yè)最新的一些概括,我們這里所講的語(yǔ)音技術(shù),簡(jiǎn)單來(lái)說(shuō)就是使得信息時(shí)代的各種機器,都能夠像人一樣能聽(tīng)會(huì )說(shuō),那么它包括了語(yǔ)音合成,讓機器開(kāi)口說(shuō)話(huà);語(yǔ)音識別,讓它能聽(tīng)懂人講話(huà),比如說(shuō)命令控制,語(yǔ)音搜索等等。那么隨著(zhù)社會(huì )的信息化,網(wǎng)絡(luò )化和智能化的發(fā)展趨勢,語(yǔ)音技術(shù)的應用可以深入到社會(huì )生活的幾乎所有行業(yè),那么目前已經(jīng)在電信、銀行等等越來(lái)越多的行業(yè)得到了深入的應用。
除此以外,語(yǔ)音技術(shù)還在國家的信息安全以及漢語(yǔ)國際推廣領(lǐng)域都有著(zhù)非常重要的應用,因此語(yǔ)音技術(shù)和產(chǎn)業(yè)歷來(lái)是世界各國競爭的熱點(diǎn)和焦點(diǎn)。那么2000年以前,中國語(yǔ)音產(chǎn)業(yè)幾乎全部由國外公司主導,98,99年,微軟,英特爾等等,都在中國成立了專(zhuān)門(mén)的語(yǔ)音研究機構,應該是產(chǎn)業(yè)形勢非常地危急。就是在這種背景下,以科大訊飛為代表的民族語(yǔ)音產(chǎn)業(yè),在聯(lián)想投資,在科學(xué)院以及國家各部委的關(guān)心和支持下,我們勇于亮劍,經(jīng)過(guò)十年的發(fā)展,目前中國語(yǔ)音主流市場(chǎng)的80%已經(jīng)重新回到中國企業(yè)手中。
那么科大訊飛不僅在中文領(lǐng)域獲得了國際領(lǐng)先的成果,而且在英文技術(shù)領(lǐng)域方面也取得了國際領(lǐng)先的成就,科大訊飛現在已經(jīng)發(fā)展為中國語(yǔ)音產(chǎn)業(yè)唯一上市的公司,為下一輪更快更好的發(fā)展奠定了很扎實(shí)的基礎。那么今天,我們的語(yǔ)音產(chǎn)業(yè)又面臨著(zhù)更加廣闊的巨大的發(fā)展機遇,這個(gè)機遇就是剛才我們柳總提到的全球已經(jīng)進(jìn)入高速發(fā)展的移動(dòng)互聯(lián)網(wǎng)時(shí)代,那么作為產(chǎn)業(yè)界共同公認的,作為移動(dòng)互聯(lián)網(wǎng),作為計算機整個(gè)產(chǎn)業(yè)發(fā)展的第五次浪潮,它將帶來(lái)產(chǎn)業(yè)的整體規模將是在桌面互聯(lián)網(wǎng)十倍以上速度的遞增,那么在這個(gè)過(guò)程中,會(huì )誕生一大批偉大的公司。那么在互聯(lián)網(wǎng)時(shí)代,由于我們的社會(huì )越來(lái)越小,經(jīng)常在開(kāi)車(chē)走路的移動(dòng)狀況下使用,因此語(yǔ)音技術(shù)在這個(gè)時(shí)代就有更加廣闊的前景。我們的移動(dòng)互聯(lián)網(wǎng)正在以飛快的速度撲面而來(lái),目前我們的8億手機用戶(hù)中,已經(jīng)有將近2億的移動(dòng)互聯(lián)網(wǎng)用戶(hù),到2012年,我們的3G用戶(hù)也將超過(guò)2億以上,如此巨大規模的用戶(hù)群,一定會(huì )為中國移動(dòng)互聯(lián)網(wǎng)的發(fā)展提供源源不斷的動(dòng)力和持續成長(cháng)的舞臺。
在這個(gè)大的發(fā)展趨勢中我們可以看到,對語(yǔ)音技術(shù)的投入力度和市場(chǎng)關(guān)注的步伐應該說(shuō)是前所未有的,我們從IBM,微軟,到現在的蘋(píng)果和Google都可以看出明確的趨勢,比如說(shuō)IBM提出要把他的語(yǔ)音技術(shù)推向市場(chǎng),微軟在多種場(chǎng)合下提出來(lái),他未來(lái)看好的三大產(chǎn)業(yè)第一就是語(yǔ)音技術(shù)。那么微軟即將推出來(lái)的Window7,也已經(jīng)把語(yǔ)音作為非常重要的一部分,蘋(píng)果也正在研發(fā)語(yǔ)音識別技術(shù)等等。應該說(shuō)國際IT巨頭在中文語(yǔ)音領(lǐng)域,在全球范圍內的對語(yǔ)音產(chǎn)業(yè)的高度關(guān)注,既促進(jìn)了這個(gè)產(chǎn)業(yè)的更快的發(fā)展,也為我們中國語(yǔ)音企業(yè)提出了更大的挑戰,使我們感到更大的發(fā)展的緊迫性。
在這種背景下,我們科大訊飛要發(fā)布我們的訊飛語(yǔ)音云各個(gè),應該說(shuō)當今的互聯(lián)網(wǎng)發(fā)展,社會(huì )各界都已經(jīng)明顯看到,互聯(lián)網(wǎng)已經(jīng)發(fā)展到了成年階段,就是越來(lái)越表達和反應了一個(gè)國家和民族的核心力。所以說(shuō)各國跟互聯(lián)網(wǎng)時(shí)代的網(wǎng)上的話(huà)語(yǔ)權和控制力的爭奪越來(lái)越激烈,而語(yǔ)音作為文化的基礎和民族的象征,我們認為中國的民族語(yǔ)音企業(yè),一定要在這場(chǎng)競爭中拿出我們的氣魄,做出我們的成果來(lái)。那么今天,科大訊飛我們要發(fā)布的訊飛語(yǔ)音云平臺,就是面臨這樣一種產(chǎn)業(yè)競爭的激烈的格局,以及巨大產(chǎn)業(yè)發(fā)展的空間,我們提出來(lái)。
那么我們訊飛語(yǔ)音云平臺的總體架構,大家可以看這個(gè)圖,我們封裝了包括語(yǔ)音識別,語(yǔ)音合成等等戰略的各種智能語(yǔ)音技術(shù),通過(guò)我們云計算平臺接口,統一實(shí)現資源管理,存儲管理等等,那么像開(kāi)發(fā)伙伴提供便捷的開(kāi)發(fā)環(huán)境和高校的語(yǔ)音服務(wù)。
下面給大家介紹并做一些相應的演示,我們在訊飛云平臺中的一些核心技術(shù)。首先給大家介紹一下我們語(yǔ)音合成技術(shù)的發(fā)展和最新的成果。語(yǔ)音合成技術(shù)就是讓機器和各種設備開(kāi)口說(shuō)話(huà),最關(guān)鍵的指標我們的設備,在車(chē)上收到一條短信,我們能夠馬上讀出來(lái),那么讀的效果好壞是一個(gè)非常的指標,根據國際比賽,那么有五分的主觀(guān)評價(jià)標準,如果機器念的聲音跟我們播音員一樣,就是五分,像普通人一樣就是四分,我們請大家看一看我們語(yǔ)音合成在各個(gè)歷史階段的項目。
首先可以請大家聽(tīng)一下我們在95年的技術(shù)。聽(tīng)起來(lái)很像電影里面機器人的聲音,這說(shuō)明技術(shù)難度很大。
看到98年,我們在業(yè)界率先達到了可使用門(mén)檻的水平。那么這是以這個(gè)系統為基礎,科大訊飛的創(chuàng )業(yè)團隊創(chuàng )辦了訊飛公司,這對我們未來(lái)產(chǎn)業(yè)發(fā)展起到了巨大的推動(dòng)作用。今天非常高興告訴大家,我們的語(yǔ)音合成已經(jīng)做到4.5分,是業(yè)界唯一超過(guò)4.0分的系統,也就是說(shuō)播音員是5分,普通人是4分,計算機是4.5分,我們下面聽(tīng)一下。
那么剛才大家聽(tīng)到的,這是863比賽的原文,謝謝。那么目前應該說(shuō)對基本任意文本我們都可以有這種水平,今天上午,我們針對今天的發(fā)布會(huì ),專(zhuān)門(mén)合成了一段文章,現在語(yǔ)音已經(jīng)可以由男聲,女聲,童聲,還有方言,請大家聽(tīng)一下,謝謝。
那么這都是現場(chǎng)合成的,應該說(shuō)我們對幾乎任意文本都能做到這樣一個(gè)水平。那么除了包括中文的多語(yǔ)言多方言的情況之外,我們加大了國際多語(yǔ)種的研發(fā),我們參加了由美國和日本聯(lián)合發(fā)起的國際英文大賽,這是全球最權威的語(yǔ)音合成比賽,06年科大訊飛成為業(yè)界最大的一匹黑馬,當時(shí)包括了參加的有微軟公司等等,那么2006年,又連續比了四年,我們非常高興地告訴大家,訊飛已經(jīng)不但是黑馬,所有關(guān)注訊飛的情況下,我們連續四年蟬聯(lián)全球第一名,下面請大家聽(tīng)一下我們英文合成的效果。
這一段英文合成應該是非常地道,可以給大家看看這張圖,這是2001年國際比賽的結果,科大訊飛是唯一超過(guò)4.0分的英文合成系統,4.9分是參考對方的美國的播音員的水平。那么4.2是科大訊飛的,應該說(shuō)我們在英文合成上面的核心技術(shù)已經(jīng)是遠遠領(lǐng)先競爭對手,那么在未來(lái)幾年我們還會(huì )陸續推出其他全球最主要的語(yǔ)種。
下面再給大家介紹一下在移動(dòng)互聯(lián)網(wǎng)時(shí)代非常有意義的應用,就是發(fā)音模擬技術(shù),通過(guò)這個(gè)技術(shù),就可以準確分析他的聲帶特征等等,可以把一個(gè)人的聲音變成另外一個(gè)人說(shuō)話(huà),這個(gè)我們也做了一個(gè)案例,因為涉及到非商業(yè)的,我們這個(gè)不是一個(gè)商業(yè)的宣傳,因此我們用了我們中央臺著(zhù)名播音員李瑞英的聲音,請大家聽(tīng)聽(tīng)。我們來(lái)看看我們模擬的聲音像不像,謝謝。
應該說(shuō)這樣一種發(fā)音模擬技術(shù)和我們語(yǔ)音合成技術(shù)相結合,未來(lái)在無(wú)線(xiàn)互聯(lián)網(wǎng)時(shí)代的網(wǎng)絡(luò )游戲、網(wǎng)絡(luò )教學(xué)、乃至于虛擬主持人等等都有非常廣闊的應用。
前面給大家介紹的是語(yǔ)音合成技術(shù),下面再給大家介紹一個(gè),我覺(jué)得對語(yǔ)音識別非常有意義和價(jià)值的口語(yǔ)評測技術(shù)。這個(gè)技術(shù)簡(jiǎn)單來(lái)講,就是使得計算機能夠對我們的普通話(huà)或者英語(yǔ)發(fā)音等等進(jìn)行打分,評價(jià)和反饋指導。這項技術(shù)最早的需求來(lái)源是國家語(yǔ)委和教育部,所有的年輕人要想當老師,必須要考普通話(huà)等級證書(shū),以前都是人工考,三個(gè)老師考一個(gè)學(xué)生,十分鐘結果才能出來(lái),效率很低,成本很高,讓計算機代替人工來(lái)進(jìn)行測試,這國家語(yǔ)委多年的目標。我今天告訴大家,科大訊飛是唯一的一個(gè)能做到的,我們的技術(shù)在2009年測試人數已經(jīng)超過(guò)了100萬(wàn)人,那么今年國家語(yǔ)委正式下文,大家有興趣可以登錄到我們的網(wǎng)站自己去體驗,不僅可以對你的發(fā)音進(jìn)行打分,還可以告訴你錯的地方在哪些地方。這些同樣在我們的英語(yǔ)教學(xué),在我們少數民族教育都有非常重要的應用。同時(shí)對我們將要發(fā)布的我們的語(yǔ)音聽(tīng)寫(xiě)和搜索起到了很重要的優(yōu)勢,應該是我們非常強的一個(gè)核心優(yōu)勢。
那么在相應的技術(shù)基礎上,我們科大訊飛在2008年,又開(kāi)始參加國際上最權威的說(shuō)話(huà)識別和語(yǔ)種識別的大賽,是NIST主辦的,那么這個(gè)組織從1996年開(kāi)始,每?jì)赡暌淮闻e行說(shuō)話(huà)人和語(yǔ)種的比賽,2000年以后是隔年進(jìn)行,09年是語(yǔ)種識別,語(yǔ)種識別就是一說(shuō)話(huà)我們知道你是哪個(gè)國家哪個(gè)地區的人。我們可以看到,我們的所有指標都在全球前三名。我們在通用語(yǔ)種上獲得了全球的亞軍,那么更難的,高混淆方言,我們是全球第一名。這些國際歷史上大賽的頻繁的獲獎,充分的確立了科大訊飛在國際語(yǔ)音技術(shù)領(lǐng)域,從合成到識別的全面的領(lǐng)先技術(shù)。
那么圍繞上述這些核心技術(shù),我們訊飛面向產(chǎn)業(yè)推出來(lái)的命令式識別和語(yǔ)音搜索技術(shù),正在日益廣泛的進(jìn)入我們日常生活中。比如說(shuō)在通訊領(lǐng)域,訊飛以音樂(lè )搜索為代表,我們的語(yǔ)音搜索業(yè)務(wù)已經(jīng)覆蓋了46個(gè)升級運營(yíng)點(diǎn),用戶(hù)數超過(guò)1億人,擁有上千萬(wàn)的穩定活躍的用戶(hù)。此外,電信,移動(dòng)和聯(lián)通推出了一些典型業(yè)務(wù)。另外我們這個(gè)技術(shù)還從電信延伸到了金融、教育等越來(lái)越多的行業(yè),而且在世博會(huì )上也發(fā)揮了重要的作用,包括語(yǔ)音識別,大家還看到可愛(ài)的海寶,能聽(tīng)會(huì )說(shuō)的海寶就是我們做的,你說(shuō)白日依山盡,它就回到黃河入海流,非常聰明。那么在這個(gè)基礎上,我們隨著(zhù)現代的實(shí)際應用的發(fā)展和應用中對核心技術(shù)提出了越來(lái)越高的要求,技術(shù)不斷的發(fā)展和進(jìn)步。
下面請大家看幾個(gè)非常典型的演示,第一個(gè)演示是在移動(dòng)的客服電話(huà)呼叫導航中的演示,這是一個(gè)實(shí)際上線(xiàn)的系統,請大家看一下。
好,那么大家看到,最早我們在查詢(xún)各種各樣呼叫中心的時(shí)候,必須要簡(jiǎn)單按鍵,那么我們這個(gè)語(yǔ)音云技術(shù)就非常方便了。相信隨著(zhù)這個(gè)技術(shù)從電信往社會(huì )生活各個(gè)領(lǐng)域的延伸,會(huì )對我們整個(gè)社會(huì )信息的服務(wù)起到一個(gè)極大的提升。剛才是我們呼叫導航,下面再給大家看兩個(gè)非常有趣的演示:一個(gè)是在互聯(lián)網(wǎng)電視領(lǐng)域,大家知道現在三網(wǎng)合一成為一個(gè)信息產(chǎn)業(yè)發(fā)展非常重要的戰略,這就是我們三網(wǎng)合一的實(shí)際的電視機,這個(gè)電視機可以通過(guò)機頂盒,或者說(shuō)現在互聯(lián)網(wǎng)電視直接安裝我們的軟件,這是我們配套的一個(gè)搖控器,非常低成本的在搖控器上增加一個(gè)摁鍵,就可以用語(yǔ)音來(lái)控制了。
那么應該說(shuō),它對互聯(lián)網(wǎng)電視,對三網(wǎng)合一最大的價(jià)值在什么?有了語(yǔ)音識別,我們可以隨意說(shuō)了,準確率都非常地高。剛才看到的是在電視用的應用,下面在具體的手機中的應用,這是一個(gè)智能手機,這個(gè)手機中間,我接了一個(gè)線(xiàn),這個(gè)線(xiàn)主要的目的是為了投影到上面,唯一的作用就是傳輸我們的屏幕,所有的運算都在我的手機中進(jìn)行。下面給大家看一個(gè)就是在手機中我們實(shí)現的搜索,只要在手機中,用戶(hù)獲得了我們訊飛語(yǔ)音云平臺的注冊通行證,他在手機中任何的瀏覽器,各種搜索都可以用語(yǔ)音來(lái)完成,下面來(lái)給大家安裝這個(gè)語(yǔ)音瀏覽器,起動(dòng)了一個(gè),這個(gè)是屏幕,我們點(diǎn)擊進(jìn)入到搜索以后,這是我們訊飛的輸入法,我們在網(wǎng)上已經(jīng)發(fā)布了,點(diǎn)擊輸入法中的麥克風(fēng),我們就可以直接說(shuō)話(huà)了,它的所有運算都是在后臺。
應該說(shuō)通過(guò)這種語(yǔ)音搜索,可以極大的提升我們用戶(hù)的使用,剛才給大家看到的就是我們的語(yǔ)音所有剛才的計算全在后臺的云計算平臺來(lái)支撐的。我們看到的了我們的搜索的演示以后,有很多的合作伙伴,包括領(lǐng)導要問(wèn),如果我們要在移動(dòng)互聯(lián)網(wǎng)終端要使用語(yǔ)音技術(shù)聽(tīng)寫(xiě),就有更大的難處,因為有很多局限,但是我們非常高興。
騰訊科技
訊飛語(yǔ)音助力柳州市中考英語(yǔ)聽(tīng)力測試升級 2010-12-01 |
訊飛語(yǔ)音云 引領(lǐng)車(chē)載導航POI搜索變革 2010-11-30 |
訊飛暢言互動(dòng)英語(yǔ)學(xué)習平臺成大學(xué)英語(yǔ)教改新利器 2010-11-26 |
什么是語(yǔ)音云? 2010-11-26 |
移動(dòng)互聯(lián)網(wǎng)進(jìn)入語(yǔ)音時(shí)代:和機器說(shuō)話(huà) 2010-11-22 |