黃偉畢業(yè)于中國科學(xué)技術(shù)大學(xué),后加入摩托羅拉并帶隊研發(fā)出世界上首個(gè)手機聲紋認證系統。國際金融危機期間,摩托羅拉將整個(gè)語(yǔ)音識別團隊出售給Nuance。黃偉拒絕被Nuance收編,于2009年7月加入盛大網(wǎng)絡(luò )旗下的創(chuàng )新院,2010年10月創(chuàng )建了語(yǔ)音分院,2013年年底正式出任公司CEO。黃偉告訴記者,在技術(shù)方面云知聲先后四次升級語(yǔ)音識別內核,目前識別準確率達96.26%,技術(shù)領(lǐng)先,并且可提供中、英、粵多語(yǔ)言識別;在商業(yè)化方面,云知聲單月簽約額突破千萬(wàn)元,合作伙伴超過(guò)3200家,云知聲智能語(yǔ)音已廣泛應用在移動(dòng)互聯(lián)網(wǎng)、智能家電、車(chē)載、可穿戴設備、呼叫中心、教育、醫療等領(lǐng)域。
無(wú)獨有偶,科大訊飛副總裁江濤也同樣是語(yǔ)音界的老人。畢業(yè)于中國科技大學(xué)自動(dòng)化與計算機專(zhuān)業(yè)的他是科大訊飛的元老,作為科大訊飛創(chuàng )業(yè)團隊成員,一直在從事語(yǔ)音技術(shù)在通信和互聯(lián)網(wǎng)方向的應用推廣。在江濤看來(lái),語(yǔ)音技術(shù)和其他技術(shù)一樣,都在沿技術(shù)成熟曲線(xiàn)不斷發(fā)展。幾年前蘋(píng)果Siri帶動(dòng)語(yǔ)音走進(jìn)向上發(fā)展階段,那時(shí)整個(gè)產(chǎn)業(yè)被看好,很多資本投入進(jìn)來(lái)至一個(gè)高潮,而現在是高潮過(guò)后走入技術(shù)成熟曲線(xiàn)下行階段,很多人開(kāi)始悲觀(guān),資本撤離,只有堅持下來(lái)的公司能做成。他判斷,帶語(yǔ)音走入下一波上行曲線(xiàn)的動(dòng)力很可能是可穿戴設備、智能家居、智能汽車(chē)等。
江濤向記者回憶,在上世紀90年代,當時(shí)公認語(yǔ)音做得最好是南北二“王”,南“王”就是中國科技大學(xué)的王仁華老師,他也是科大訊飛第一任董事長(cháng),也是他支持科大訊飛現任董事長(cháng)劉慶峰創(chuàng )業(yè)的;北“王”指的就是清華大學(xué)的王作英老師,語(yǔ)音識別和語(yǔ)音合成做得都很不錯。在江濤看來(lái),語(yǔ)音成為人機交互的主要信息入口這是大勢所趨,毋庸置疑,只是語(yǔ)音真正價(jià)值的實(shí)現還有賴(lài)于技術(shù)的成熟和應用的普及。應用的普及需要慢慢來(lái),引導、教育市場(chǎng),培養人們的使用習慣要一點(diǎn)點(diǎn)推進(jìn),但要全面推廣、普及還是需要過(guò)程的。“幾年前要是有人在電梯里對著(zhù)自己手機喃喃自語(yǔ)大家都會(huì )覺(jué)得奇怪,不知道這人干嘛呢,但現在因為微信的普及,這種行為習慣已經(jīng)被接受認可。”
而對于技術(shù)的成熟,江濤同樣認為是需要專(zhuān)注投入、不斷積累的。江濤向記者介紹目前的語(yǔ)音識別技術(shù)現狀,他以環(huán)境從嘈雜到安靜的程度為橫軸,以人說(shuō)話(huà)的清晰程度為縱軸,劃分四個(gè)象限。在第一象限,也就是環(huán)境也安靜、人說(shuō)話(huà)也清楚的情況下,目前各家語(yǔ)音廠(chǎng)商技術(shù)實(shí)力差距不大,語(yǔ)音識別率都很高。在第二象限,也就是環(huán)境嘈雜、網(wǎng)絡(luò )不好的情況下,目前科大訊飛做得很不錯。噪音大、網(wǎng)絡(luò )信號時(shí)斷時(shí)續非常影響語(yǔ)音識別效果。“車(chē)載語(yǔ)音識別最大的對手就是噪音。2013年8月,奔馳在全球對云技術(shù)提供商進(jìn)行選型發(fā)布的報告中分別按不同時(shí)速(每小時(shí)60、100、140公里)測噪,科大訊飛是唯一在100公里時(shí)速上識別率超過(guò)90%的廠(chǎng)商。”江濤自豪地介紹。在第三象限,也就是環(huán)境不錯、人發(fā)音不太配合(最典型的各種口音)的情況下,看的就是對語(yǔ)言種類(lèi),尤其是方言的支持程度。云知聲實(shí)現對粵語(yǔ)、英語(yǔ)的識別支持。科大訊飛除了實(shí)現對粵語(yǔ)、英語(yǔ)的識別支持,2014年以來(lái)陸續支持對河南話(huà)、四川話(huà)、東北話(huà)等方言的識別。江濤透露今年還會(huì )陸續支持湖南話(huà)、山東話(huà)、武漢話(huà)、合肥話(huà)、閩南話(huà)的方言識別。除了口音之外,語(yǔ)速、講話(huà)模式等也會(huì )對語(yǔ)音識別帶來(lái)不同挑戰,比如演講與開(kāi)會(huì )的語(yǔ)音識別的識別算法和模型都不一樣。“今年年底科大訊飛將推出一個(gè)產(chǎn)品實(shí)現普通話(huà)開(kāi)會(huì )過(guò)程中,將語(yǔ)音轉變?yōu)槲淖郑R別率很高。”江濤透露。而在第四象限,即環(huán)境又不好、發(fā)音又不好的情況是世界性的難題,很難有誰(shuí)能攻克。