• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 國內 >
     首頁(yè) > 新聞 > 國內 >

    中科信利連續語(yǔ)音識別引擎

    2016-11-21 15:28:15   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      1中科信利連續語(yǔ)音識別引擎基本原理
      1.1 概述
      中科信利連續語(yǔ)音識別引擎,針對連續音頻流(即來(lái)自說(shuō)話(huà)人直接錄入的語(yǔ)音,或者電話(huà)或其他音視頻領(lǐng)域的音頻信號)進(jìn)行識別,將音頻信息自動(dòng)轉化成文字。覆蓋漢語(yǔ)中絕大多數詞語(yǔ),適用于說(shuō)普通話(huà)的任何人群。輸出的結果都是漢字,兼容數字。
      在輸入的聲音中,檢測出可靠的語(yǔ)音,排除靜音、背景噪聲、音樂(lè )等,判斷男女,實(shí)時(shí)送入語(yǔ)音識別解碼器進(jìn)行識別。
      識別引擎把音視頻中提取出的語(yǔ)音分成25毫秒一幀,提取有用特征,然后識別出一些類(lèi)似拼音的結果(聲學(xué)模型),再根據漢語(yǔ)字詞句之間的搭配概率(語(yǔ)言模型),綜合考慮。當然,考慮的越多(beam路徑越大),識別準確率相對提高,同時(shí)消耗的時(shí)間就增長(cháng)了;所以我們有優(yōu)化策略,及時(shí)排除不可能的結果,避免系統過(guò)慢。用戶(hù)可以通過(guò)調節這些參數來(lái)平衡識別質(zhì)量和速度,以滿(mǎn)足實(shí)際的需要。
      最后返回的識別結果,軟件以漢語(yǔ)中基本詞語(yǔ)為單位給出了多種可能(1到十幾種)以及可能性大小供用戶(hù)參考選擇。
      需要說(shuō)明的是,對識別正確率以及識別速度來(lái)說(shuō),輸入語(yǔ)音(普通話(huà))的質(zhì)量(采音過(guò)程)是很重要的。采音時(shí)應盡可能的排除噪聲和音樂(lè )、增大語(yǔ)音,識別效果就會(huì )好得多,因此建議用戶(hù)在采音的時(shí)候選用質(zhì)量較好的麥克風(fēng)。
      另外,系統在檢測是否有語(yǔ)音信號時(shí)可能會(huì )帶來(lái)一定的時(shí)間滯后,用戶(hù)在實(shí)時(shí)錄入時(shí)在每句話(huà)結束后,需要略有停頓,這樣可以提高系統語(yǔ)音檢測的速度和精度。語(yǔ)音檢測的越好,識別引擎的識別效果會(huì )越好。
      1.2 引擎架構和基本原理
      下圖給出了連續語(yǔ)音識別引擎的基本架構圖:
    圖1.語(yǔ)音識別引擎架構圖
    圖1.語(yǔ)音識別引擎架構圖
      系統流程
      如圖1所示,首先對輸入的音頻數據進(jìn)行自動(dòng)分類(lèi),過(guò)濾掉彩鈴、振鈴、傳真、音樂(lè )以及其他噪音,保留有效用戶(hù)語(yǔ)音數據,然后進(jìn)行自動(dòng)分段和端點(diǎn)檢測,獲取逐句的有效語(yǔ)音數據,然后將其送入特征提取和處理模塊,接著(zhù)對于提取的聲學(xué)特征進(jìn)行解碼,解碼過(guò)程利用發(fā)音字典、聲學(xué)模型、語(yǔ)言模型等信息構建WFST搜索空間,在搜索空間內尋找匹配概率最大的最優(yōu)路徑,得到識別結果。后續可采用重估模塊,增加其他知識源,進(jìn)一步提升語(yǔ)音識別系統性能。
      核心技術(shù)特點(diǎn)
    • 語(yǔ)音端點(diǎn)檢測
      采用兩遍的維納濾波技術(shù)消除背景噪聲;采用垃圾語(yǔ)音混合高斯建模的方法去除垃圾語(yǔ)音(笑聲、咳嗽聲等非自然人語(yǔ)音);采用諧波檢測技術(shù)檢測語(yǔ)音起始點(diǎn)。
    • 特征提取
      從人的聽(tīng)覺(jué)感知及發(fā)音機理等現有基礎研究成果出發(fā),分析提取具備抗噪性、鑒別性、互補性的特征參數。
      采用PLP/CMN/HLDA/VTLN/高斯化等穩健性特征提取和處理技術(shù),減少信道影響,進(jìn)一步提高特征的區分性。
    • 聲學(xué)建模:
      采用基于深度神經(jīng)網(wǎng)絡(luò )DNN的聲學(xué)建模技術(shù),采用業(yè)界領(lǐng)先的鑒別性模型訓練算法,大幅度提升語(yǔ)音識別系統性能。在訓練數據、特征提取等方面都充分考慮了自然環(huán)境噪聲的干擾,并且采用多條件的訓練策略,能夠顯著(zhù)提高對于噪聲的穩健性。采用大量實(shí)網(wǎng)語(yǔ)音的訓練數據庫,適應用戶(hù)自然口語(yǔ)發(fā)音特點(diǎn)和地方口音特點(diǎn)。
    • 語(yǔ)言建模
      充分利用網(wǎng)上業(yè)務(wù)語(yǔ)料,采用高階文法的統計語(yǔ)言模型技術(shù)。
      積累了大量的分類(lèi)文本語(yǔ)料(1T左右),使得語(yǔ)言模型能夠很好地覆蓋各個(gè)領(lǐng)域。同時(shí)對語(yǔ)言模型存取速度進(jìn)行了大幅度優(yōu)化以滿(mǎn)足實(shí)用需求。
    • 解碼算法
      采用基于WFST的Cross-word靜態(tài)搜索空間構建方法,有效地單遍集成各種知識源,將聲學(xué)模型、聲學(xué)上下文、發(fā)音詞典、語(yǔ)言模型等靜態(tài)編譯成狀態(tài)網(wǎng)絡(luò ),通過(guò)充分的前向后向歸并算法優(yōu)化網(wǎng)絡(luò )。在識別率相當的情況下,比WFST開(kāi)源工具包解碼速度快5倍以上。
    • 自學(xué)習
      采用模型自學(xué)習技術(shù),基于實(shí)網(wǎng)語(yǔ)音數據進(jìn)行聲學(xué)模型和語(yǔ)言模型的自適應,適應于多種地區的用戶(hù)口音。
      1.3 引擎應用模式
      中科信利連續語(yǔ)音識別引擎API提供兩種應用模式:
      一種是在線(xiàn)實(shí)時(shí)錄音,檢測語(yǔ)音并進(jìn)行識別。這種方法適合用于需要實(shí)時(shí)獲得講話(huà)內容的場(chǎng)合。目前可以在各類(lèi)會(huì )議討論中進(jìn)行開(kāi)發(fā)使用。
      另一種是離線(xiàn)讀入錄音文件進(jìn)行識別,可以充分的利用聚類(lèi)、實(shí)時(shí)自適應等技術(shù),把語(yǔ)音的內容充分分析,進(jìn)一步提高識別準確度。這種模式適用于希望取得精確文本內容,而對時(shí)間要求不高的應用。
      2 中科信利連續語(yǔ)音識別引擎的功能和性能
      2.1 連續語(yǔ)音識別引擎的特點(diǎn)和性能
      核心引擎采用中科信利具有自主知識產(chǎn)權的國際領(lǐng)先的大詞匯量連續語(yǔ)音識別技術(shù)。
      能夠自動(dòng)將連續語(yǔ)音的內容轉成文字,支持在線(xiàn)語(yǔ)音流識別或離線(xiàn)語(yǔ)音數據識別。
      可以實(shí)時(shí)對語(yǔ)音分段,判別類(lèi)型,可自動(dòng)分辨和過(guò)濾背景音樂(lè )、噪聲等非表義音頻段,對語(yǔ)音分男女進(jìn)行識別。
      識別結果除了文字外,還可同時(shí)給出時(shí)間索引信息(精確到每個(gè)字),有利于進(jìn)行多媒體信息檢索;多候選信息為人工校對提供方便。
      能夠達到較高的識別準確率
      引擎準確率性能:
    • 對于朗讀類(lèi)型語(yǔ)音(如:手機語(yǔ)音搜索或輸入類(lèi)語(yǔ)音、廣播電視新聞等),識別準確率在90%以上,經(jīng)過(guò)模型優(yōu)化訓練以后能達到95%。
    • 對于自然對話(huà)類(lèi)型語(yǔ)音(如:電視訪(fǎng)談?wù)Z(yǔ)音或電話(huà)自然交談?wù)Z(yǔ)音),識別準確率為85%左右,經(jīng)過(guò)模型優(yōu)化訓練以后能夠達到90%。
      引擎速度性能:
    • 在普通臺式機上可以達到1倍實(shí)時(shí)。
    • 并發(fā)性:針對普通服務(wù)器(IntelXeonE5**雙cpu,每cpu六核),可支持24路語(yǔ)音數據流的實(shí)時(shí)識別(或相當于機器1小時(shí)能夠處理24小時(shí)的語(yǔ)音數據)。
      支持說(shuō)話(huà)人口音自適應(聲學(xué)自適應)和領(lǐng)域語(yǔ)料自適應(語(yǔ)言自適應)
      核心算法支持海量并行處理,多線(xiàn)程
      核心算法與語(yǔ)種無(wú)關(guān),即系統語(yǔ)種可移植,支持漢語(yǔ)普通話(huà)、粵語(yǔ)和英語(yǔ)等語(yǔ)言的識別
      引擎提供標準C接口,可供C/C++及各種語(yǔ)言的開(kāi)發(fā)者直接調用。
      能夠提供方便靈活的開(kāi)發(fā)接口,多項參數可調,使用戶(hù)可以方便靈活地進(jìn)行應用開(kāi)發(fā)。
      2.2 連續語(yǔ)音識別引擎資源配置
      (一) 硬件環(huán)境
      PC/工作站/服務(wù)器:
    • CPU:性能相當于Intel酷睿2.2GHZ以上或兼容,雙核
    • 內存:8GB以上(建議為16GB),200GB以上硬盤(pán)
      (二) 軟件環(huán)境
      PC/工作站/服務(wù)器:WINXP/Win7/WinServer2008等操作系統,或Linux操作系統
      2.3 連續語(yǔ)音識別引擎的應用
      在智能客服語(yǔ)音導航、客服錄音質(zhì)量檢測、錄音文本自動(dòng)語(yǔ)音錄入、Internet信息檢索、多媒體信息檢索、廣電監控系統等領(lǐng)域具有相當廣泛的用途。

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 北流市| 仙桃市| 常德市| 姚安县| 屏边| 千阳县| 濉溪县| 宜宾市| 庄浪县| 葫芦岛市| 清苑县| 都昌县| 延津县| 佳木斯市| 定陶县| 和林格尔县| 嘉善县| 闻喜县| 临西县| 武鸣县| 安阳市| 和顺县| 永川市| 芦溪县| 边坝县| 南阳市| 桓仁| 射洪县| 晋城| 遂溪县| 浦东新区| 托里县| 宁阳县| 麟游县| 灵寿县| 德清县| 宜黄县| 雅江县| 马关县| 梨树县| 阿拉善右旗| http://444 http://444 http://444 http://444 http://444 http://444