近年來(lái),云計算、大數據、物聯(lián)網(wǎng)和人工智能等FinTech技術(shù)快速發(fā)展,促進(jìn)了語(yǔ)音識別準確度的迅速提升,為商業(yè)銀行引入智能化服務(wù)提供了重要的技術(shù)資源,語(yǔ)音識別技術(shù)將掀起商業(yè)銀行服務(wù)模式的變革,為智能化服務(wù)增加新的元素。本文從商業(yè)銀行實(shí)際出發(fā),對該技術(shù)的發(fā)展進(jìn)行梳理,并提出商業(yè)銀行語(yǔ)音識別“4I”應用框架,以期推動(dòng)FinTech時(shí)代下銀行綜合智能化服務(wù)能力進(jìn)一步提升。
一、語(yǔ)音識別技術(shù)概述
語(yǔ)音識別通過(guò)運用語(yǔ)言學(xué)、計算機科學(xué)、電子工程、模式識別、概率論、信息論以及人工智能等領(lǐng)域的方法和技術(shù),使計算機設備能夠精準識別和翻譯語(yǔ)音信息,也被稱(chēng)為自動(dòng)語(yǔ)音識別(ASR)或者語(yǔ)音到文本(STT),在金融、電信、電子商務(wù)、醫療、制造等行業(yè)得到了廣泛應用。
1.語(yǔ)音識別技術(shù)發(fā)展
語(yǔ)音識別技術(shù)按照發(fā)展和應用程度,可分為早期實(shí)驗研究階段、實(shí)用階段、現代語(yǔ)音識別系統開(kāi)發(fā)應用階段。
(1)早期實(shí)驗研究階段
20世紀50年代,世界上第一個(gè)能識別10個(gè)英文數字發(fā)音的實(shí)驗系統在貝爾實(shí)驗室誕生;20世紀60年代,出現了動(dòng)態(tài)時(shí)間規整(DTW)算法以及將語(yǔ)音信號以幀為單位切分的技術(shù),實(shí)現了有效的語(yǔ)音特征提取;20世紀80年代,識別算法從基于標準模板的方法轉向基于統計模型的方法,產(chǎn)生了基于高斯混合隱馬爾可夫模型(GMM-HMM)的聲學(xué)模型和以N元語(yǔ)法為基礎的語(yǔ)言模型,實(shí)現了大量詞匯、非特定人以及連續語(yǔ)音的識別。
(2)實(shí)用階段
進(jìn)入20世紀90年代后,語(yǔ)音識別的系統框架趨于穩定,隨著(zhù)計算機運算能力的快速提升以及語(yǔ)音識別在系統自適應、參數調優(yōu)等方面的成熟,語(yǔ)音識別技術(shù)在商業(yè)上逐步成功運用,語(yǔ)音識別技術(shù)進(jìn)入實(shí)用階段。
(3)現代語(yǔ)音識別系統開(kāi)發(fā)應用階段
近些年,隨著(zhù)大數據和深度學(xué)習技術(shù)的發(fā)展,深度學(xué)習方法逐漸被引入到語(yǔ)音識別系統中,相較于傳統的語(yǔ)音識別技術(shù),識別性能獲得了顯著(zhù)提升。
目前,市場(chǎng)上的語(yǔ)音識別系統大多基于深度神經(jīng)網(wǎng)絡(luò )模型進(jìn)行建模,大幅提升了各種應用場(chǎng)景下語(yǔ)音識別的準確度和可靠性,使語(yǔ)音識別技術(shù)進(jìn)入了新的應用階段。
2.語(yǔ)音識別的分類(lèi)
按照說(shuō)話(huà)人的不同,語(yǔ)音識別技術(shù)分為兩類(lèi):一是特定人語(yǔ)音識別,它用來(lái)對特定人的說(shuō)話(huà)內容進(jìn)行識別,同時(shí)基于說(shuō)話(huà)人的聲紋信息,應用聲紋鑒別技術(shù),實(shí)現基于聲音的身份識別;二是非特定人語(yǔ)音識別,通過(guò)采集大量語(yǔ)音數據來(lái)進(jìn)行訓練建模,實(shí)現非特定人的語(yǔ)音識別,可以被任何說(shuō)話(huà)人使用,更符合實(shí)際需要,通常要難于針對特定人的語(yǔ)音識別任務(wù)。
根據識別詞匯對象的不同,語(yǔ)音識別任務(wù)分為三類(lèi):一是孤立詞識別,可識別事先已知的詞語(yǔ),比如“存款”“取款”等,可應用到自動(dòng)控制領(lǐng)域;二是連續語(yǔ)音識別,可識別自然交流的連續語(yǔ)音,比如一個(gè)句子或者一段話(huà),可應用于語(yǔ)音輸入系統;三是關(guān)鍵詞識別,從連續語(yǔ)音中檢測出特定關(guān)鍵詞出現的位置,而不需要識別出整個(gè)句子,可應用于語(yǔ)音監聽(tīng)任務(wù)。
根據識別服務(wù)的實(shí)現方式,語(yǔ)音識別分為兩類(lèi):一是云端方式,依賴(lài)網(wǎng)絡(luò )并依托強大的后臺模型,識別更準確,目前已經(jīng)有多款基于云端的語(yǔ)音助手工具;二是離線(xiàn)方式,不依賴(lài)于網(wǎng)絡(luò ),應用場(chǎng)景更靈活,但識別精確度受到計算資源的限制,一般離線(xiàn)識別會(huì )結合專(zhuān)用芯片,通過(guò)壓縮模型規模,將計算量控制在合理的水平。
3.語(yǔ)音識別技術(shù)原理
傳統語(yǔ)音識別技術(shù)的基本過(guò)程如圖1所示,主要包括如下內容。

(1)預處理
這一過(guò)程主要包括對輸入的原始語(yǔ)音信號進(jìn)行采樣,去除個(gè)體發(fā)音差異以及設備環(huán)境等引起的背景噪聲,通過(guò)分幀將語(yǔ)音信號切分為短片段,并運用端點(diǎn)檢測技術(shù)確定出語(yǔ)音的起點(diǎn)和終點(diǎn)。
(2)特征提取
這一過(guò)程主要包括從預處理過(guò)的語(yǔ)音信號中,抽取出反映語(yǔ)音本質(zhì)的特征參數,形成特征矢量序列。通常由頻譜衍生出頻率倒譜系數(MFCC),使用長(cháng)度為10ms的幀分割語(yǔ)音波形,然后從每幀中提取出特征向量。
(3)聲學(xué)模型訓練
基于語(yǔ)音數據庫進(jìn)行訓練,通過(guò)計算語(yǔ)音特征和發(fā)音模板的相似度,為每個(gè)聲學(xué)單元建立模型參數,識別時(shí)將待識別的語(yǔ)音特征參數與訓練得到的聲學(xué)模型進(jìn)行匹配,獲得識別結果。傳統語(yǔ)音識別系統大多采用GMM-HMM進(jìn)行聲學(xué)模型建模。
(4)語(yǔ)言模型訓練
根據語(yǔ)言的語(yǔ)法規則,對訓練文本數據庫進(jìn)行語(yǔ)法、語(yǔ)義分析,建立描述給定詞序列在語(yǔ)言中出現的概率分布,在給定若干個(gè)詞的情境下能夠判定下一個(gè)最可能出現的詞語(yǔ),縮小搜索范圍,進(jìn)而提高語(yǔ)音識別性能以及準確率。
(5)語(yǔ)音解碼
語(yǔ)音解碼指語(yǔ)音技術(shù)中的識別過(guò)程,針對輸入的原始語(yǔ)音信號,經(jīng)預處理和特征提取后,結合訓練得到的聲學(xué)模型、語(yǔ)言模型以及發(fā)音字典建立一個(gè)識別網(wǎng)絡(luò ),運用搜索算法尋找到最佳路徑,進(jìn)而獲取該語(yǔ)音信號對應的最優(yōu)詞串。
4.深度學(xué)習和語(yǔ)音識別技術(shù)
深度學(xué)習也稱(chēng)為“深層結構化學(xué)習”,是一種基于學(xué)習數據表征的機器學(xué)習方法,通過(guò)構建多隱藏層神經(jīng)網(wǎng)絡(luò ),組合低層特征形成更加抽象的高層表示特征,以此提升分類(lèi)或預測的準確性。
語(yǔ)音信號是一種非平穩的隨機信號,人腦對其感知的過(guò)程是一個(gè)復雜的信號處理過(guò)程,深度學(xué)習可通過(guò)模仿人腦對語(yǔ)音信號的處理方式,以層次化的方式進(jìn)行處理,因此比傳統的模型更適合于語(yǔ)音信號處理。結合深度學(xué)習技術(shù)對傳統語(yǔ)音識別技術(shù)的相關(guān)環(huán)節進(jìn)行優(yōu)化和完善,出現了級聯(lián)系統(Tandem System)、混合系統(Hybrid System)、端到端模型(End-to-EndModel)系統等新技術(shù),具體描述如下:
(1)級聯(lián)系統
運用深度神經(jīng)網(wǎng)絡(luò )(DNN)進(jìn)行特征提取,優(yōu)于使用傳統特征訓練的GMM-HMM識別系統,它可以聯(lián)合特征的上下文信息形成長(cháng)時(shí)特征矢量,并且具有深層次的非線(xiàn)性變換能力,能夠從有限的數據中挖掘出更多的信息。
(2)混合系統
在GMM-HMM聲學(xué)模型基礎上,用DNN替換高斯混合模型(GMM)來(lái)計算輸出概率密度函數,其中的DNN可替換為其他的深度學(xué)習架構,比如循環(huán)神經(jīng)網(wǎng)絡(luò )(RNN)、卷積神經(jīng)網(wǎng)絡(luò )(CNN)等,這種方法最常用也最便利,不需要重新設計整個(gè)傳統聲學(xué)模型系統。
(3)端到端模型系統
基于深度神經(jīng)網(wǎng)絡(luò )完成從輸入特征向量到輸出結果的整個(gè)過(guò)程,聲學(xué)模型和語(yǔ)言模型通過(guò)后端解碼進(jìn)行融合,與傳統識別過(guò)程相比,不需要進(jìn)行分幀以及幀級別的標注操作。端到端模型實(shí)現方法分為兩種,一種是采用連續時(shí)序分類(lèi)(CTC)和長(cháng)短記憶網(wǎng)絡(luò )(LSTM)結合的聲學(xué)模型,對語(yǔ)音的音素序列和對應的語(yǔ)音特征序列進(jìn)行序列層面建模;另一種是基于編碼解碼(Encoder-Decoder)模型以及注意力(Attention)模型,直接實(shí)現從語(yǔ)音聲學(xué)特征序列到最終詞序列的輸出。
二、智能語(yǔ)音識別技術(shù)在商業(yè)銀行中的應用
隨著(zhù)語(yǔ)音識別技術(shù)與文本挖掘、自然語(yǔ)言處理等技術(shù)的不斷融合,在以商業(yè)銀行為代表的金融領(lǐng)域,語(yǔ)音識別技術(shù)呈現出巨大的應用價(jià)值潛力。本文對商業(yè)銀行視角下的語(yǔ)音識別應用場(chǎng)景進(jìn)行梳理和歸類(lèi),從對智能化技術(shù)要求由淺入深的角度,提出“4I”應用架構,即“Input(信息輸入)—Inspection(實(shí)時(shí)監察)—Interaction(溝通交互)—Identification(身份驗證)”,以期為商業(yè)銀行智能語(yǔ)音識別技術(shù)落地提供參考和借鑒。
1.Input(信息輸入):“聽(tīng)得見(jiàn)”
語(yǔ)音識別的一個(gè)主要應用就是將語(yǔ)音數據自動(dòng)轉換為文本數據,實(shí)現自動(dòng)信息輸入。該類(lèi)應用下,語(yǔ)音識別技術(shù)的主要功能是將音頻數據轉化為文本數據,并為進(jìn)一步開(kāi)展智能文本挖掘和自然語(yǔ)言處理積累大量文本信息語(yǔ)料。在商業(yè)銀行運營(yíng)環(huán)境下,該功能可主要應用于簡(jiǎn)化柜臺人員業(yè)務(wù)操作流程、實(shí)現客戶(hù)經(jīng)理拜訪(fǎng)客戶(hù)后的報告口述撰寫(xiě)等場(chǎng)景。
以柜臺操作簡(jiǎn)化流程為例,當前網(wǎng)點(diǎn)仍是銀行提供服務(wù)的重要渠道之一,柜臺運營(yíng)人員服務(wù)質(zhì)量是決定客戶(hù)體驗的關(guān)鍵要素。客戶(hù)針對銀行提出的反饋意見(jiàn)顯示,等待時(shí)間過(guò)長(cháng)已成為影響客戶(hù)滿(mǎn)意度的重要因素。通過(guò)引入語(yǔ)音識別系統,可以將客戶(hù)需求直接轉化為系統可識別的文本內容,柜臺人員僅需針對錄入的信息進(jìn)行復核校驗,減少客戶(hù)填寫(xiě)各種憑證的時(shí)間以及運營(yíng)人員錄入信息的時(shí)間,從而減少客戶(hù)等待時(shí)間,提升服務(wù)效率。此外,當銀行一線(xiàn)人員走出網(wǎng)點(diǎn)對客戶(hù)進(jìn)行拜訪(fǎng)后,由于缺乏行內雙錄設備,往往需要撰寫(xiě)訪(fǎng)談報告對客戶(hù)情況及交談內容進(jìn)行記錄,此時(shí)語(yǔ)音識別技術(shù)的應用可直接將客戶(hù)經(jīng)理的口述轉換為文字報告,以提升工作效率,進(jìn)一步釋放銀行生產(chǎn)力。
2.Inspection(實(shí)時(shí)監察):“聽(tīng)得懂”
商業(yè)銀行日常應用場(chǎng)景除了需要“聽(tīng)得見(jiàn)”,很多場(chǎng)景還要求“聽(tīng)得懂”,即需要在銀行服務(wù)人員與客戶(hù)交流過(guò)程中實(shí)時(shí)識別出客戶(hù)需求點(diǎn)及業(yè)務(wù)風(fēng)險點(diǎn),支持更精準地對客戶(hù)提供個(gè)性化服務(wù),同時(shí)保證業(yè)務(wù)合規性。
例如,通過(guò)在語(yǔ)音識別技術(shù)的基礎上架構索引機制、引入文本挖掘和自然語(yǔ)言處理技術(shù)支持,對實(shí)時(shí)“聽(tīng)”到的文字在“關(guān)注”字詞庫里進(jìn)行搜索。當客戶(hù)在柜臺辦理業(yè)務(wù)時(shí),通過(guò)對客戶(hù)與窗口人員的交談內容進(jìn)行實(shí)時(shí)監察,一方面可以及時(shí)識別銀行員工話(huà)術(shù)的合規性,當業(yè)務(wù)人員出現不當銷(xiāo)售、違規引導時(shí),系統及時(shí)跳出提醒標識對銀行人員進(jìn)行警示,盡可能避免對客戶(hù)和銀行權益造成損害;另一方面銀行可以實(shí)時(shí)發(fā)現客戶(hù)的業(yè)務(wù)需求,并及時(shí)讓窗口人員予以相關(guān)產(chǎn)品的推介,當客戶(hù)的需求與本行產(chǎn)品及服務(wù)核心關(guān)鍵詞相匹配時(shí),系統展示產(chǎn)品信息及相關(guān)話(huà)術(shù)對業(yè)務(wù)人員進(jìn)行提示,進(jìn)一步提升銷(xiāo)售成功率。
此外,該技術(shù)還可以通過(guò)對客戶(hù)語(yǔ)言文本的分析,及時(shí)發(fā)現客戶(hù)是否存在負面情緒,輔助業(yè)務(wù)人員減少不當處理,及時(shí)調節、化解業(yè)務(wù)辦理中可能發(fā)生的客戶(hù)糾紛。
3.Interaction(溝通交互):“有交互”
語(yǔ)音識別在商業(yè)銀行的應用場(chǎng)景除了上述“聽(tīng)得見(jiàn)”“聽(tīng)得懂”外,很多時(shí)候還需與客戶(hù)“有交互”。通過(guò)語(yǔ)音合成、聲向定位、語(yǔ)義理解、機器翻譯等進(jìn)一步技術(shù)支持,語(yǔ)音識別技術(shù)可應用于自助機具操作、電話(huà)銀行自動(dòng)應答、銀行呼叫中心自動(dòng)回訪(fǎng)、廳堂機器人服務(wù)交互、外籍客戶(hù)服務(wù)提升等場(chǎng)景。以廳堂設備自助化功能優(yōu)化為例,當前自助設備已成為廳堂運營(yíng)過(guò)程中分流客戶(hù)的重要手段。
目前,自助設備操作主要以觸點(diǎn)操作、手動(dòng)輸入為主,為輔助客戶(hù)進(jìn)行業(yè)務(wù)辦理,一般需設置專(zhuān)人對客戶(hù)的操作進(jìn)行指導。引入智能語(yǔ)音識別技術(shù)可進(jìn)一步優(yōu)化自助設備功能,通過(guò)識別語(yǔ)音中的要求、請求、命令或詢(xún)問(wèn)來(lái)做出正確的響應,既能改善手動(dòng)輸入速度慢、易出錯等缺點(diǎn),又有利于縮短系統的反應時(shí)間,使人機交互變得簡(jiǎn)便易行。
將語(yǔ)音識別技術(shù)應用于手機銀行和微信銀行等數字化渠道,可進(jìn)一步優(yōu)化客戶(hù)和系統交互的客戶(hù)體驗,完成余額查詢(xún)、賬戶(hù)掛失、手機號轉賬、轉賬費率查詢(xún)、預約取款、賬單查詢(xún)、信用卡還款、積分查詢(xún)、信用卡掛失等基本業(yè)務(wù)辦理,減少客戶(hù)輸入信息量,增加客戶(hù)對渠道的使用黏性,在節省服務(wù)成本的同時(shí)有效提升客戶(hù)體驗。
此外,外籍客戶(hù)服務(wù)提升也是智能語(yǔ)音識別技術(shù)充滿(mǎn)潛力的應用場(chǎng)景。以廳堂或窗口服務(wù)機器人為載體,在語(yǔ)音識別技術(shù)應用的基礎上實(shí)現“同聲傳譯”,使銀行能夠很好的服務(wù)外籍客戶(hù),提升客戶(hù)尊享度,同時(shí)也為銀行更好地布局國際化戰略、發(fā)展海外業(yè)務(wù)提供技術(shù)支撐。
4.Identification(身份驗證):“認得出”
語(yǔ)音識別技術(shù)還可通過(guò)聲紋識別實(shí)現客戶(hù)身份驗證。在生物特征識別應用中,基于語(yǔ)音的身份驗證具有非接觸、非侵入、易用性強等特征,客戶(hù)易于接受。聲紋識別可以通過(guò)每個(gè)人獨特的聲音直接辨識客戶(hù),無(wú)需設定、記住和鍵入密碼等操作,同時(shí)在信息采集方面較人臉、虹膜、指紋、指靜脈等方式具有更佳的便捷性和友好性,讓身份驗證過(guò)程變得快速而簡(jiǎn)單。國外領(lǐng)先商業(yè)銀行已開(kāi)啟語(yǔ)音身份驗證的探索,2013年5月,英國巴克萊銀行宣布使用語(yǔ)音識別技術(shù),能夠在30秒內通過(guò)一般談話(huà)驗證客戶(hù)的身份。更進(jìn)一步,通過(guò)建立客戶(hù)聲紋庫并對語(yǔ)音中的聲紋鑒別,銀行可有效對客戶(hù)進(jìn)行識別、歷史檔案查詢(xún)、信息檢索與推薦。
毋庸置疑,語(yǔ)音識別技術(shù)為商業(yè)銀行的員工操作和客戶(hù)服務(wù)等應用模式提供了新的技術(shù)選擇,并能進(jìn)一步提升業(yè)務(wù)效率,開(kāi)拓新的業(yè)務(wù)運營(yíng)模式。近年來(lái),語(yǔ)音識別技術(shù)得到了迅猛發(fā)展,但是該技術(shù)在國內商業(yè)銀行的應用仍處于起步階段。這主要是因為基于銀行業(yè)領(lǐng)域特定的語(yǔ)料庫還不夠成熟,導致無(wú)法在真正意義上實(shí)現智能語(yǔ)音識別。隨著(zhù)大數據技術(shù)不斷發(fā)展,數據積累越來(lái)越龐大,銀行業(yè)的語(yǔ)料庫必將逐漸完善,語(yǔ)音識別技術(shù)在商業(yè)銀行的應用將會(huì )逐漸深入。