"得意"聲紋識別技術(shù)常見(jiàn)問(wèn)題解答
2004/11/25
1.1 什么是VPR?
1.2 "得意聲紋識別"技術(shù)及軟件開(kāi)發(fā)工具的介紹
1.2.1 "得意聲紋識別"技術(shù)的特點(diǎn)及優(yōu)勢
1.2.2 文本相關(guān)的聲紋確認識別引擎的說(shuō)明
1.2.3 文本無(wú)關(guān)的聲紋辨認和聲紋確認識別引擎的說(shuō)明
1.3 VPR的應用范圍舉例
1.4 得意VPR技術(shù)的使用方法
1.5 得意聲紋識別引擎支持的語(yǔ)音格式
1.6 編程者是否需要對語(yǔ)音進(jìn)行預處理?
1.7 什么是多機協(xié)調的工作方式?
1.8 什么是信道的通用背景模型?
1.1 什么是VPR?
VPR是聲紋識別(Voiceprint Recognition)的縮寫(xiě),有時(shí)也稱(chēng)為說(shuō)話(huà)人識別(Speaker Recognition)。每個(gè)人的指紋都是唯一的,數百萬(wàn)人之間才會(huì )發(fā)現有兩個(gè)人有相同的指紋;與此類(lèi)似,聲紋也是人的個(gè)性特征,很難找到兩個(gè)聲紋完全一樣的人。聲紋識別,就是要根據人的發(fā)音特征,識別出某段語(yǔ)音是誰(shuí)說(shuō)的。
從對用戶(hù)所說(shuō)內容的要求上來(lái)看,可以分為文本相關(guān)的(Text Dependent)和文本無(wú)關(guān)的(Text Independent),前者要求用戶(hù)在識別過(guò)程中說(shuō)出和用來(lái)訓練的語(yǔ)音相同內容的一段話(huà),后者則無(wú)此限制;從識別的目的來(lái)看,可分為聲紋辨認(Voiceprint Identification)和聲紋確認(Voiceprint Verification),前者要判斷出某段語(yǔ)音是若干人中的哪一個(gè)所說(shuō)的;后者則確認某段語(yǔ)音是否是指定的某個(gè)人所說(shuō)的;在聲紋辨認應用中對集外說(shuō)話(huà)人的處理方式上,又可分為閉集識別和開(kāi)集識別,前者要求待識別語(yǔ)音一定是某個(gè)已知的說(shuō)話(huà)人之一,而后者允許待識別語(yǔ)音可以是某個(gè)未知的說(shuō)話(huà)人,因此識別系統具有一定的"拒識"的功能,顯然后者具有更廣的應用范圍。
1.2 "得意聲紋識別"技術(shù)及軟件開(kāi)發(fā)工具的介紹
1.2.1 "得意聲紋識別"技術(shù)的特點(diǎn)及優(yōu)勢
得意公司的聲紋識別引擎包括聲紋辨認和聲紋確認版本,可以是文本無(wú)關(guān)的,也可以是文本相關(guān)的,而且均支持開(kāi)集的識別方式。其中文本無(wú)關(guān)的版本同時(shí)具有文本和語(yǔ)言的無(wú)關(guān)性,對語(yǔ)音長(cháng)度的要求也非常低,通常訓練只需要幾十秒有效語(yǔ)音,而識別階段只需幾秒鐘的有效語(yǔ)音即可。有很高的識別精度,也可以靈活地調整操作點(diǎn)參數從而適應于不同應用的需求。
1.2.2 文本相關(guān)的聲紋確認識別引擎的說(shuō)明
"得意文本相關(guān)的聲紋確認"識別引擎及其API的最新版本為3.0。
系統要求為:Intel PII 400 MHz以上配置的 PC或服務(wù)器;128 MB 或更多的內存;微軟Windows 9X/ME/NT/2000/XP;微軟Visual C++ Version 6.0 或更高版本。或者是:ARM兼容的Pocket PC(WinCE 3.0或更高版本);Embedded Visual C++ v3.0或更高版本(適用于Pocket PC版的文本相關(guān)聲紋確認識別引擎)。
軟件開(kāi)發(fā)包的內容有:函數說(shuō)明頭文件(*.h)、靜態(tài)鏈接庫(*.lib)、動(dòng)態(tài)鏈接庫(*.dll)、初始模型文件、編程參考手冊(*.doc/*.PDF)、參考示例源程序等。
文本相關(guān)的聲紋確認識別API v3.0的特點(diǎn)有:工作在說(shuō)話(huà)人(聲紋)文本相關(guān)的方式;對訓練次數要求低,并可累積訓練;對用戶(hù)無(wú)口音和語(yǔ)言的使用限制;運行于開(kāi)集方式(即具備拒識功能);可調整的拒識嚴格程度閾值;內嵌對并發(fā)操作的控制,支持多線(xiàn)程調用;具有高效率與高準確度下的可靠性與靈活性。
1.2.3 文本無(wú)關(guān)的聲紋辨認和聲紋確認識別引擎的說(shuō)明
"得意文本無(wú)關(guān)的聲紋辨認"和"得意文本無(wú)關(guān)的聲紋確認"識別引擎及其API的最新版本均為3.0。
系統要求為:Intel PII 400 MHz以上配置的 PC或服務(wù)器;128 MB 或更多的內存;微軟Windows 9X/ME/NT/2000/XP;微軟Visual C++ Version 6.0 或更高版本。
軟件開(kāi)發(fā)包的內容有:函數說(shuō)明頭文件(*.h)、靜態(tài)鏈接庫(*.lib)、動(dòng)態(tài)鏈接庫(*.dll)、初始模型文件、編程參考手冊(*.doc/*.PDF)、參考示例源程序等。
文本無(wú)關(guān)的聲紋辨認和聲紋確認識別API v3.0的特點(diǎn)有:同時(shí)支持話(huà)者身份識別與話(huà)者身份認證;與文本(內容)、語(yǔ)言無(wú)關(guān);運行于開(kāi)集方式(即具備拒識功能);可調整的聲紋識別閾值與自適應適應性功能;無(wú)監督的開(kāi)集拒識閾值估計;話(huà)者識別與認證的增量方式識別;高效率與高準確度下的可靠性與靈活性;基于客戶(hù)端/服務(wù)器的框架(多線(xiàn)程與多實(shí)例)。
1.3 VPR的應用范圍舉例
聲紋辨認:刑偵破案、罪犯跟蹤、國防監聽(tīng)、個(gè)性化應用等等;聲紋確認:證券交易、銀行交易、公安取證、個(gè)人電腦聲控鎖、汽車(chē)聲控鎖、身份證、信用卡的認證等。
1.4得意VPR技術(shù)的使用方法
得意的聲紋辨認和聲紋確認技術(shù)均提供一組方便易用的編程接口(API)和運行文件,可供應用開(kāi)發(fā)者直接編程調用。其中API部分采用標準的純C風(fēng)格,提供函數說(shuō)明的頭文件,可供多種編程語(yǔ)言和環(huán)境調用,運行文件包括動(dòng)態(tài)鏈接庫和預先訓練好的初始數據文件等。對具體應用對應的特殊信道,我們可以為其進(jìn)行特定的參數調整和信道初始模型的定制化工作。
1.5得意聲紋識別引擎支持的語(yǔ)音格式
與ASR引擎相同,得意的各個(gè)聲紋識別引擎均支持PC聲卡信道和電話(huà)信道上采集的語(yǔ)音,它們的采樣率分別為16kHz和8kHz,其它采樣率的語(yǔ)音流需要先進(jìn)行轉換之后才能被使用,采樣點(diǎn)可以是8bit或16bit的PCM格式,也可以是用A率或μ率壓縮的。
如果語(yǔ)音流是存儲在語(yǔ)音文件(例如*.wav)中的,那么應用程序在調用識別引擎的API之前,需要先將文件中的語(yǔ)音流讀入內存中,然后調用相應的編程接口把語(yǔ)音數據送入識別引擎。
1.6 編程者是否需要對語(yǔ)音進(jìn)行預處理?
在我們現有的聲紋識別接口中,已包含了對語(yǔ)音進(jìn)行預處理的功能。例如識別前,要求先將語(yǔ)音數據放入某個(gè)內部數據結構內,在這個(gè)過(guò)程中就自動(dòng)完成了拋除靜音、噪音、提取語(yǔ)音特征等工作,并為后續的識別只保留真正"有效"的語(yǔ)音部分。當然如果需要的話(huà),系統開(kāi)發(fā)者在這個(gè)過(guò)程之前再加上一些額外的預處理也是可以的,例如可對某些已知具有特殊分布規律的低信噪比語(yǔ)音進(jìn)行專(zhuān)門(mén)的去噪操作,以保證后續的建模和識別過(guò)程具有更好的綜合性能。
1.7 什么是多機協(xié)調的工作方式?
在進(jìn)行聲紋辨認時(shí),由于進(jìn)行比對的時(shí)間與語(yǔ)音長(cháng)度和聲紋數據庫的規模基本上是成正比的,所以當語(yǔ)音較長(cháng)且聲紋數據庫巨大時(shí),單一線(xiàn)程內部的比對會(huì )變得非常耗時(shí)。此時(shí)可以采用多臺機器協(xié)調工作的方式。例如,采用五臺機器,由總控程序將一個(gè)待比對的語(yǔ)音數據流分發(fā)到各個(gè)機器上,每臺機器只負責比對數據庫中五分之一的聲紋模型;之后將各自檢出的候選提交給總控程序,進(jìn)行統一的排序和輸出,于是總體的識別時(shí)間就降為原來(lái)單機的五分之一。這就是多機協(xié)調工作的方式。
1.8 什么是信道的通用背景模型?
在進(jìn)行文本無(wú)關(guān)的、開(kāi)集的聲紋辨認和確認時(shí),我們利用了一種由海量數據訓練得到的"通用背景模型"來(lái)對各個(gè)聲紋模型的得分進(jìn)行歸一化和拒識;對不同的信道(例如PC聲卡、固定電話(huà)、GSM或CDMA的移動(dòng)電話(huà)、錄音筆、磁帶、監控設備、電視、無(wú)線(xiàn)電設備等,嚴格說(shuō)來(lái)都分別屬于不同信道),不同信道的"背景模型"間的參數差異很大,這與識別器的性能是有一定的相關(guān)性的。目前我們的引擎中缺省僅內嵌了一個(gè)背景模型。因此當需要同時(shí)識別來(lái)自多個(gè)信道(例如手機、固話(huà)、錄音筆、磁帶等)的語(yǔ)音時(shí),我們可訓練出針對不同信道的背景模型,在識別時(shí)與這些語(yǔ)音對應起來(lái)使用即可。當然,現有的編程接口也可以根據用戶(hù)的具體情況為此進(jìn)行一些定制或調整。
得意音通公司供稿 CTI論壇編輯
相關(guān)鏈接:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
西峡县|
五家渠市|
朝阳区|
衢州市|
宁晋县|
理塘县|
饶河县|
隆回县|
合水县|
扶沟县|
桃园县|
察哈|
剑川县|
洛川县|
永宁县|
大同县|
临猗县|
四子王旗|
肃宁县|
镇巴县|
南宁市|
紫金县|
阿鲁科尔沁旗|
海安县|
昌都县|
嘉定区|
武威市|
铅山县|
永春县|
岳普湖县|
乌兰浩特市|
三台县|
黄骅市|
徐汇区|
秭归县|
鲁甸县|
和平区|
邹城市|
隆回县|
清远市|
新干县|
http://444
http://444
http://444
http://444
http://444
http://444