前言:深度神經(jīng)網(wǎng)絡(luò )(DNN)是近幾年在工業(yè)界和學(xué)術(shù)界新型的一個(gè)機器學(xué)習領(lǐng)域的熱點(diǎn)話(huà)題。DNN算法成功的將以往的智能識別率提高了一個(gè)顯著(zhù)的檔次,可以極大地提高圖像、語(yǔ)音識別的準確度,可以更快地推動(dòng)智能人機交互(HCI)技術(shù)的進(jìn)步。
自DNN發(fā)展以來(lái),該技術(shù)已成功應用于語(yǔ)音識別技術(shù)領(lǐng)域,并取得很好的效果,在移動(dòng)互聯(lián)網(wǎng)中已實(shí)現廣泛應用。近一年來(lái),伴隨語(yǔ)音質(zhì)檢系統在各在呼叫中心得到越來(lái)越廣的重視,捷通華聲通過(guò)與清華大學(xué)合作,成功將深度神經(jīng)網(wǎng)絡(luò )應用到靈云語(yǔ)音質(zhì)檢分析系統中,促進(jìn)語(yǔ)音轉寫(xiě)識別率達到實(shí)用化水平,從而使語(yǔ)音質(zhì)檢質(zhì)量與效率得到大幅提升。
深度學(xué)習神經(jīng)網(wǎng)絡(luò )是機器學(xué)習研究中的一個(gè)新的領(lǐng)域,其動(dòng)機在于建立、模擬人腦進(jìn)行分析學(xué)習的神經(jīng)網(wǎng)絡(luò ),它模仿人腦的機制來(lái)解釋數據,例如圖像,聲音和文本。2010年,微軟雷德蒙研究院發(fā)現深層網(wǎng)絡(luò )可顯著(zhù)提高語(yǔ)音識別的精度。此后,微軟亞洲研究院在測試中發(fā)現應用DNN的語(yǔ)音識別模型識別錯誤率比最低錯誤率降低了33%之多,即絕對識別率提升了6.6%。
“使結果發(fā)生翻天覆地變化的是DNN,通過(guò)應用DNN,在日常對話(huà)中,最多可使單詞識別錯誤率比之前降低42%。這意味著(zhù),以往10個(gè)錯誤,有4個(gè)能用這種方法解決。這是自HMM(隱馬爾科夫模型)出現以來(lái),單項技術(shù)使語(yǔ)音識別精確度獲得的最大提升”,微軟亞洲研究院研究員Frank Seide解釋道。
顯然,比起傳統的混合高斯模型(GMM),DNN在識別精度上具有相當的優(yōu)勢。
在采用了最先進(jìn)的第4代深度神經(jīng)網(wǎng)絡(luò )算法后,捷通華聲靈云語(yǔ)音識別的通用語(yǔ)音識別率達到93%以上,定制模型的識別率達到97%以上,各項指標已經(jīng)達到國內最好水準。然而,在對其他聲源的識別能力上DNN是否會(huì )有所突破呢?2013年,捷通華聲與清華大學(xué)合作,開(kāi)始在靈云語(yǔ)音質(zhì)檢系統上應用DNN技術(shù)。該系統以識別“電話(huà)通道語(yǔ)音”為核心,將通話(huà)錄音中的語(yǔ)音信息提取出來(lái),通過(guò)靈云語(yǔ)音識別轉換成文本保存在系統中,再通過(guò)提取關(guān)鍵詞、靜音檢測、情緒檢測、語(yǔ)速檢測等方式對語(yǔ)音進(jìn)行篩選分析,從而得出質(zhì)檢結果。通過(guò)靈云語(yǔ)音質(zhì)檢系統,可以幫助客戶(hù)將客服錄音數據進(jìn)行各種分析,從而針對性地改善呼叫中心的服務(wù)質(zhì)量。其中除對企業(yè)自身呼叫中心質(zhì)檢之外,這套系統還可以為企業(yè)分析客戶(hù)的反饋意見(jiàn),跟蹤廣大用戶(hù)的熱點(diǎn)問(wèn)題,從而對公司的產(chǎn)品和服務(wù)提出優(yōu)化建議,實(shí)現更加精準的市場(chǎng)決策。因此,“電話(huà)通道語(yǔ)音”識別的精度越高意味著(zhù)語(yǔ)音質(zhì)檢的效率越高、客戶(hù)體驗越好。在應用DNN之后,客戶(hù)普遍反映靈云語(yǔ)音質(zhì)檢的質(zhì)量和效率已經(jīng)有明顯的提升,證明了DNN在多聲源識別中的適用能力。
DNN的火熱雖早已經(jīng)引起語(yǔ)音企業(yè)的重視,而圖像是DNN最早嘗試的應用領(lǐng)域--它已經(jīng)使 YouTube的視頻分類(lèi)提高了70%的準確率。而恰好圖像識別又是靈云的另一條主打產(chǎn)品線(xiàn):靈云智能圖像。在語(yǔ)音識別和DNN產(chǎn)生化學(xué)反應后,我們有理由期待靈云智能圖像識別&DNN在票證、車(chē)牌、人臉等圖像識別領(lǐng)域的更新的表現。
捷通華聲在語(yǔ)音識別、圖像識別等技術(shù)領(lǐng)域全面應用DNN,得到了清華大學(xué)的鼎力支持。2013年,清華大學(xué)產(chǎn)業(yè)基金入資捷通華聲,成為捷通華聲第二大股東,也因此確立了捷通華聲與清華大學(xué)的戰略合作關(guān)系,并得到清華大學(xué)HCI領(lǐng)域中強大科研力量的支持。捷通華聲憑借自身在智能語(yǔ)音、智能圖像、自然語(yǔ)言理解等技術(shù)領(lǐng)域的技術(shù)積累,與清華大學(xué)HCI技術(shù)各領(lǐng)域實(shí)驗室、專(zhuān)家教授建立起聯(lián)合研究機制,為長(cháng)期發(fā)展HCI技術(shù)奠定了堅實(shí)的基礎。
捷通華聲此次與清華大學(xué)在DDN領(lǐng)域的成功合作,也標示清華大學(xué)在HCI技術(shù)領(lǐng)域的雄厚科研力量通過(guò)與市場(chǎng)需求的緊密結合,開(kāi)始全面服務(wù)社會(huì )。未來(lái)發(fā)展,捷通華聲將發(fā)揚清華大學(xué)在國家科技進(jìn)步、國民經(jīng)濟建設中的強大推動(dòng)力與影響力,全面推進(jìn)靈云發(fā)展戰略,促進(jìn)提升清華大學(xué)HCI技術(shù)在產(chǎn)業(yè)中的影響力,助力清華大學(xué)構建“學(xué)術(shù)超前、科研領(lǐng)先、產(chǎn)業(yè)化推廣最強”的領(lǐng)導地位,從而共同實(shí)現“靈云科技 源自清華 服務(wù)全球”的戰略發(fā)展規劃,為中國HCI產(chǎn)業(yè)化發(fā)展做出更大的貢獻。