D系列語(yǔ)音卡的連續語(yǔ)音處理技術(shù)(CSP)
D系列語(yǔ)音卡采用DSP技術(shù)進(jìn)行連續語(yǔ)音處理(CSP,Continuous Speech Process),在電話(huà)線(xiàn)路與語(yǔ)音識別引擎之間對語(yǔ)音數據進(jìn)行預處理,從而提高了語(yǔ)音識別引擎的效率和識別率,為ASR的成熟應用奠定了基礎,而東進(jìn)D系列語(yǔ)音卡和IBM的綜合語(yǔ)音處理解決方案也成為應用系統開(kāi)發(fā)者的首選。
1、回聲消除(ECR)。
ECR(Echo Cancellation Resource)是基于DSP技術(shù)對語(yǔ)音通道的聲音進(jìn)行的實(shí)時(shí)控制。其實(shí)現方法在于:在電話(huà)線(xiàn)路上收到的聲音里去掉IVR系統播放的聲音,從而保證收到的聲音是純凈的,如下圖所示。
圖 ECR原理
語(yǔ)音識別的過(guò)程實(shí)際是一個(gè)錄音和聲音比較的過(guò)程。當錄下來(lái)的聲音(收到的聲音)是純凈或者比較純凈的時(shí)候,識別率將大大提高。
試驗表明,采用回聲消除技術(shù)后,語(yǔ)音識別率得到顯著(zhù)提高,從原有的70-80%提高到95%以上,滿(mǎn)足了商用要求。
2、語(yǔ)音打斷(Barge in)
語(yǔ)音打斷可以減輕系統資源占用,提高語(yǔ)音識別系統的利用效率,而且減少用戶(hù)等待的時(shí)間,節省話(huà)費開(kāi)支,為構建高精度和高密度的系統創(chuàng )造了條件。
3、語(yǔ)音檢測(VAD)
語(yǔ)音檢測 (VAD-Voice Activity Detection)技術(shù)的應用是實(shí)現語(yǔ)音打斷的前提。其原理是檢測線(xiàn)路上的聲音能量(Voice Energy Detection),只有在檢測到語(yǔ)音後才啟動(dòng)錄音和語(yǔ)音識別進(jìn)程。
4、4-120路語(yǔ)音處理,D系列語(yǔ)音卡可以支持4-120路連續語(yǔ)音處理能力。
5、基于D系列語(yǔ)音卡的ASR的結構,如下圖所示: