導語(yǔ):聲音識別技術(shù)的發(fā)展已經(jīng)日趨成熟,并且延展出了多個(gè)使用場(chǎng)景。特別是伴隨當下移動(dòng)互聯(lián)網(wǎng)和智能手機的普及,它已經(jīng)來(lái)到我們的日常生活中了。
科技是推動(dòng)人類(lèi)前行、社會(huì )進(jìn)步的重要力量。實(shí)驗室里不分晝夜的反復試驗,成就了人類(lèi)更便捷、更美好的生活。這個(gè)欄目的開(kāi)設,旨在發(fā)現中國科技最前沿的力量,展現這些靜耐科研寂寞的團隊以及他們正在做的事情,為這個(gè)時(shí)代的科研足跡留下真實(shí)的印記。
電影《2012》中有一個(gè)片段,一群人無(wú)論怎么弄都啟動(dòng)不了一輛汽車(chē),而當車(chē)的主人說(shuō)了一句“引擎,啟動(dòng)”之后,這輛車(chē)就發(fā)動(dòng)起來(lái)了。這就是神奇的語(yǔ)音和聲紋識別技術(shù),也就是說(shuō),機器可以辨別主人的聲音命令和的身份。除了主人外,任何人說(shuō)這句話(huà)都無(wú)法打開(kāi)系統。
看上去還很科幻對嗎,可眼下,這個(gè)情景已經(jīng)真實(shí)的出現在我們的生活中了。雖然暫時(shí)還未大量地普及在汽車(chē)上,但這種聲音識別技術(shù)的發(fā)展已經(jīng)日趨成熟,并且延展出了多個(gè)使用場(chǎng)景。特別是伴隨當下移動(dòng)互聯(lián)網(wǎng)和智能手機的普及,它已經(jīng)來(lái)到我們的日常生活中了。
比如,當我們拿起手機要進(jìn)入銀行APP,不用密碼、無(wú)需指紋,只需自己讀一串數字,系統就可以通過(guò)聲音自動(dòng)辨認你的身份,成功進(jìn)入,而除你之外的任何人念相同的數字,都不能進(jìn)入你的銀行系統。它的原理,實(shí)際上就是根據我們每個(gè)人聲音的獨特性來(lái)鑒定說(shuō)話(huà)人的身份。可以說(shuō),世界上每一個(gè)人的聲音特征都是不同的,母子、父子、雙胞胎的聲音可能會(huì )很相像,但在計算機看來(lái)他們卻是完全不同的。
現在,中國建設銀行已經(jīng)開(kāi)始采用這種技術(shù),而它的供應方,就是一家叫做“得意音通”的科技公司。
把一件事做到極致
“我們是一家專(zhuān)門(mén)研究聲紋識別技術(shù)的公司。我們研發(fā)的技術(shù)只用來(lái)做一件事,就是對人的身份進(jìn)行認證”,得意音通的創(chuàng )始人兼董事長(cháng)鄭方向記者介紹,“因為專(zhuān)注于做這一件事,所以我們就要把它做到極致,包括性能、功能和穩定性”。作為清華大學(xué)教授和博士生導師,鄭方有著(zhù)科學(xué)家一貫精益求精的態(tài)度。
由于本科、碩士、博士都在清華求學(xué),鄭方笑稱(chēng)自己是“三清團”,而在清華畢業(yè)留校任教之后,他陸續擔任清華語(yǔ)音實(shí)驗室、語(yǔ)音技術(shù)中心、語(yǔ)音和語(yǔ)言技術(shù)中心主任等,跟聲音技術(shù)研究打了近三十年的交道。
2002年,得意音通在北京中關(guān)村國際孵化園成立。專(zhuān)業(yè)從事聲紋識別、語(yǔ)音識別與語(yǔ)言理解技術(shù)的研發(fā)和商業(yè)化應用,尤其在聲紋識別領(lǐng)域,其集技術(shù)研發(fā)、產(chǎn)品開(kāi)發(fā)和服務(wù)提供于一身,擁有完全的自主知識產(chǎn)權。“與指紋識別一樣,聲紋識別也是生物特征識別技術(shù)的一種,但在遠程身份認證中它比指紋更保險,因為指紋可以用指模來(lái)造假,但聲紋特征的特殊性,使聲紋造假完全沒(méi)有了可能”,鄭方介紹,“因為聲紋是行為特征,我們一方面提取聲道的特征,世界上每個(gè)人的聲道特征都是不一樣的,另一方面我們還驗證說(shuō)話(huà)的內容,每次驗證說(shuō)話(huà)的內容都不同,錄音造假無(wú)效。”比如在生活中,我們可以模仿別人說(shuō)話(huà),模仿別人的語(yǔ)調和音色,從人耳的聽(tīng)覺(jué)上幾乎可以以假亂真,但這只是表象上的相同,本質(zhì)上騙不了計算機的識別系統。
得意音通研發(fā)的聲紋識別技術(shù),就是基于每個(gè)人聲道的長(cháng)、短、粗、細,以及每個(gè)人說(shuō)話(huà)的節奏、口音、發(fā)音,還有聲音所對應的喉管、聲道、鼻腔的形狀與尺寸等特征進(jìn)行本質(zhì)識別,因此就算一個(gè)人模仿他人再相像,出現在計算機上的聲紋圖譜也是千差萬(wàn)別的。
當然,人的聲音也并不是沒(méi)有變化的,比如因為感冒發(fā)燒引起的鼻塞、嗓子變啞,以及隨著(zhù)年齡的增長(cháng)聲音的成人化和自然老化等現象,都會(huì )引起人聲音的改變,但據鄭方介紹,人本身的聲道構成、口音、節奏、發(fā)音還有很多身體特征都是不會(huì )改變的,因此這些表象的改變并不會(huì )影響計算機的識別。
不過(guò),有一種情況卻可能對聲紋識別構成威脅,那就是在你說(shuō)話(huà)的時(shí)候別人錄下你的聲音,然后用錄音去登錄你的銀行賬戶(hù),“所以為了防止這種情況,我們發(fā)明了一個(gè)叫做聲密保的產(chǎn)品,這是我們公司獨有的專(zhuān)利產(chǎn)品”,鄭方邊介紹邊掏出手機向記者具體展示。“聲密保”就是基于動(dòng)態(tài)密碼語(yǔ)音的身份確認系統及方法,其利用動(dòng)態(tài)密碼,結合語(yǔ)音識別和聲紋識別技術(shù),來(lái)實(shí)現用戶(hù)身份的雙重驗證。簡(jiǎn)單來(lái)說(shuō),就是需要念出的數字每次都會(huì )改變,即使是用戶(hù)自己,也要把動(dòng)態(tài)碼念對才可以通過(guò)身份認證。
在鄭方的手機上,記者看到他第一次登錄手機銀行時(shí),系統需要他念8個(gè)數字,而當他退出重新登陸時(shí),系統給出的8個(gè)數字已經(jīng)跟第一次的全然不同,這樣就使錄音失去了作用。另外錄音在播放時(shí),它的聲音頻譜已經(jīng)被破壞,與直接說(shuō)的聲音已經(jīng)不同,完全可以被系統檢測出來(lái),從而進(jìn)一步阻止他人用錄音拼接的方式進(jìn)入自己的銀行系統。
無(wú)限想象的“應用場(chǎng)景”
除了銀行、金融系統的身份認證外,聲紋識別技術(shù)還有許多其他的應用場(chǎng)景,比如對居民社保身份的確認。根據人社部的數據,2013年有3.5萬(wàn)人冒領(lǐng)社保1.27億元,其中在很多人已經(jīng)去世的情況下,其家屬還照樣領(lǐng)取社保。“這就是由于沒(méi)有監控,無(wú)法進(jìn)行身份認證所帶來(lái)的問(wèn)題。而解決這個(gè)問(wèn)題的辦法,其實(shí)也是最能集中體現我們技術(shù)價(jià)值的地方,就是遠程認證”,鄭方解釋道,“遠程就是在異地,見(jiàn)不到面,憑相貌或者指紋認證都行不通的時(shí)候,聲音認證就是最好的方式了,只要事先用系統記錄下對方的聲音,然后在領(lǐng)取社保前讓對方念一串動(dòng)態(tài)密碼,就能判別是不是被社保的本人在領(lǐng)取資金,從而解決冒領(lǐng)的問(wèn)題”。
同時(shí),聲紋識別還可以用于考勤,“當然這個(gè)認證可能對員工來(lái)說(shuō)都不會(huì )喜歡”,鄭方笑著(zhù)說(shuō),“但它對公司、單位來(lái)講,是一個(gè)比指紋和打卡都方便、高效和防代考勤的系統”。
現在公司考勤中,比較常用的兩種方式就是指紋和打卡,但這兩種方式都可以作假和讓別人代替,而且一個(gè)公司通常就幾個(gè)指紋機和打卡機,人多的單位在上下班高峰的時(shí)候容易擁堵和排隊,而用聲紋技術(shù)打卡,就無(wú)須排隊。據他介紹,員工在自己的手機上就可以點(diǎn)擊進(jìn)入考勤系統進(jìn)行聲紋認證,而員工身處的位置則是有限制的,利用手機的定位功能,只有在公司的區域內才可以登錄這個(gè)考勤系統,這樣每個(gè)人在自己的手機上就可以完成考勤,既避免了排隊,提高了打考勤的效率,又防止了作假。
除此之外,在電子身份證、車(chē)聯(lián)網(wǎng)的安全、智能手機的隱私保護、智能客服等方面,聲紋認證也都有著(zhù)巨大的市場(chǎng)空間,“而這幾點(diǎn)還只是目前能想到的,未來(lái)隨著(zhù)移動(dòng)互聯(lián)網(wǎng)技術(shù)和應用的不斷發(fā)展,聲紋認證可以應用的范圍和場(chǎng)景會(huì )越來(lái)越廣泛,所以我們在今年3月份推出了一個(gè)‘聲密保云平臺’。這個(gè)云平臺主要針對B端企業(yè)客戶(hù),他們既可以享受平臺的存儲和認證服務(wù),又可以根據我們免費提供的開(kāi)發(fā)工具進(jìn)行任何場(chǎng)景應用的二次開(kāi)發(fā)。我們不收取一分費用,全部免費。因為現在很多人還不了解聲紋識別到底是什么,所以我們現在推廣這個(gè)平臺,就是讓更多的企業(yè)了解到這個(gè)技術(shù)”,鄭方表示。
在以技術(shù)為核心的創(chuàng )新型公司,強大的研發(fā)團隊是必不可少的。由于鄭方在清華任教,得意音通先天就占據了背靠清華的獨特優(yōu)勢,其研發(fā)部門(mén)現有員工近40人,主要負責聲紋識別、語(yǔ)音識別、智能客服等技術(shù)相關(guān)產(chǎn)品的研發(fā)與改進(jìn),團隊中本科以上學(xué)歷的工程師占89%以上,其中還有幾位博士是鄭方在清華的學(xué)生。2015年7月,在國內高校產(chǎn)學(xué)研一體化大力推廣的背景下,清華大學(xué)以知識產(chǎn)權入股正式成為了得意音通的股東。同年10月,公司還與清華大學(xué)信息技術(shù)研究院語(yǔ)音和語(yǔ)言技術(shù)中心聯(lián)合建立了“清華-得意音通聲紋處理聯(lián)合實(shí)驗室(JLVPP)。
而除了“聲密保”外,得意音通共有15項發(fā)明專(zhuān)利技術(shù),在聲紋識別方面,包括:聲紋辨認快速算法方面的專(zhuān)利,主要適用于國防、公安、司法等根據語(yǔ)音從大規模聲紋庫中檢索嫌疑人的應用;聲紋識別的訓練和識別方面的基礎算法專(zhuān)利;基于聲紋識別、人臉識別以及同步活體檢測的身份認證方法,這也是聲密保的加強版,該專(zhuān)利結合聲紋識別和人臉識別技術(shù),利用語(yǔ)音和唇語(yǔ)同步檢測來(lái)確認用戶(hù)真實(shí)發(fā)音,從而提高遠程身份認證的可靠性,防止假冒;聲密保與指紋相結合的專(zhuān)利,這也是聲密保的加強版;防錄音攻擊的聲紋識別專(zhuān)利,可以有效防止錄音及錄音拼接攻擊;以及聲紋自學(xué)習的國際專(zhuān)利,可以應對聲紋隨著(zhù)年齡發(fā)生緩慢變化的情形等等。
按鄭方的話(huà)說(shuō),“在推出產(chǎn)品前,我們前期做的準備工作就是構筑了一道厚厚的‘專(zhuān)利墻’”。
用科學(xué)的思維做商業(yè)
可見(jiàn),無(wú)論是在民用的商業(yè)市場(chǎng)還是在政府單位的公務(wù)市場(chǎng),聲紋識別都有著(zhù)相當大的用武之地。那么,該如何打入這些市場(chǎng)呢。技術(shù)出身的鄭方?jīng)]有上過(guò)一天的商學(xué)院,但他凡事愛(ài)琢磨的性格還是讓他由學(xué)者、科研人員的身份向商人的身份做了成功的轉型。
“許多知識理論其實(shí)都是相通的,研究技術(shù)如此,研究商業(yè)也是如此,所以我就想能不能把研究技術(shù)時(shí)對問(wèn)題進(jìn)行分析、拆解、推導等思路和方法論也用在商業(yè)推廣上,這樣我就知道每一步該做什么了”,鄭方說(shuō)。
事實(shí)證明,這種方法不但走得通,而且還讓他找到了許多問(wèn)題的關(guān)鍵點(diǎn),比如一開(kāi)始他就貼近了市場(chǎng)需求,并且根據實(shí)際情況不斷的改進(jìn)提升產(chǎn)品。“事實(shí)上,科研成果轉化成商業(yè)產(chǎn)品最難的地方也就在這里,因而許多實(shí)驗室里的研究成果不能有效地轉化成量產(chǎn)的產(chǎn)品。往往科研成果是科研成果,商品還是那些商品,從實(shí)驗室向市場(chǎng)化邁進(jìn)的過(guò)程中出現了斷裂,所以那時(shí)候我就跟我的團隊說(shuō),我們從一開(kāi)始就要立足于市場(chǎng),要以解決實(shí)際需求的初衷來(lái)研發(fā)產(chǎn)品,而不能一味的沉浸在科研本身上”。
本著(zhù)這樣的思路,鄭方找到了他在金融領(lǐng)域的第一個(gè)大客戶(hù),中國建設銀行。2009年,得意音通的聲紋識別技術(shù)安裝到了建行的95533聲紋身份認證系統上,在一段時(shí)間的試運營(yíng)和測試后,成功的實(shí)現了客戶(hù)的零投訴率,這也讓鄭方信心倍增,決定要把服務(wù)銀行系統作為他市場(chǎng)化推廣的第一步,集中火力把產(chǎn)品進(jìn)行更廣泛的應用。
在建行95533聲紋識別服務(wù)的運營(yíng)期間,公司的“聲密保”技術(shù)還沒(méi)有被發(fā)明出來(lái),當時(shí)系統抓取的只是客戶(hù)的聲紋,而并不關(guān)注客戶(hù)所講的內容,而且需要抓取時(shí)間較長(cháng),所以那時(shí)在建行辦理業(yè)務(wù)的客戶(hù)往往需要講至少十秒鐘的話(huà),而且講話(huà)的內容全需要自己想,這就在產(chǎn)品的體驗上產(chǎn)生了瑕疵,也不能有效防止錄音闖入。
“所以建行當時(shí)就給我們提意見(jiàn),十秒鐘時(shí)間太長(cháng)、很多客戶(hù)都不知道說(shuō)點(diǎn)什么好,能不能縮短抓取時(shí)間、提高產(chǎn)品的性能。這樣,我們就持續改進(jìn),直到研發(fā)出了聲密保,建行就滿(mǎn)意了”,鄭方回憶說(shuō)。
眼下,讓鄭方高興的好消息是:今年5月,建行將在普通客戶(hù)中全面地開(kāi)始應用聲紋識別服務(wù);而現階段,他的團隊也正在與中國銀聯(lián)洽談合作打造一個(gè)開(kāi)放平臺,屆時(shí)所有的銀行系統都可以在這個(gè)平臺上使用這個(gè)技術(shù),那也就意味著(zhù)公司在銀行、金融系統的推廣取得了巨大進(jìn)展。
可以說(shuō),經(jīng)過(guò)了七年的努力和改進(jìn)之后,市場(chǎng)告訴作為商人的鄭方,第一步路走對了。
希望公司做有意義的事
而接下來(lái)的第二步,就是如何構筑強有力的商業(yè)模式。
通過(guò)與建行的合作,得意音通進(jìn)入民用市場(chǎng)已經(jīng)有了良好的基礎,接下來(lái),鄭方的思路是,繼續深耕民用市場(chǎng),為進(jìn)入政府公務(wù)市場(chǎng)做準備,“我們的政府客戶(hù)涉及國防、公安、司法等機構,市場(chǎng)空間非常廣闊,但公務(wù)市場(chǎng)這塊的進(jìn)入會(huì )比較慢,因為它要受到很多法律規則的限制,所以眼下我們在民用市場(chǎng)這塊集中發(fā)力,為將來(lái)切入公務(wù)市場(chǎng)做技術(shù)儲備”。
而“聲密保云平臺”,就是他實(shí)現核心目標的重要步驟。
“我們的云平臺現在都是免費面向客戶(hù)的,以促使更多的客戶(hù)了解、熟悉和掌握聲紋認證系統的使用。這樣做的好處是:一方面可以幫助我們擴大宣傳;另一方面,我們將來(lái)可以和這些客戶(hù)談合作,實(shí)現多種形式的雙贏(yíng)的盈利方式”。
談到這,鄭方信心滿(mǎn)滿(mǎn),而他自信的源泉,則來(lái)自于得意音通在行業(yè)內拿的多個(gè)第一。2013年,在由工信部主辦的“中國語(yǔ)音產(chǎn)業(yè)年會(huì )”上,其“聲密保”語(yǔ)音支付產(chǎn)品榮獲了“2013年中國語(yǔ)音創(chuàng )新產(chǎn)品獎”;2014年,再次憑借“聲密保”榮獲了CTI論壇頒發(fā)的“2014年度編輯推薦獎”。
而鄭方本人,則是CCC(國際中文語(yǔ)言資源聯(lián)盟)理事長(cháng)、中國中文信息學(xué)會(huì )語(yǔ)音信息專(zhuān)業(yè)委員會(huì )主任委員,NCMMSC(全國人機語(yǔ)音通訊學(xué)術(shù)會(huì )議)常設機構委員會(huì )主席等,并先后參與負責起草了工信部的《自動(dòng)聲紋識別(說(shuō)話(huà)人識別)技術(shù)規范》、公安部的《安防生物特征識別應用術(shù)語(yǔ)》和《安防聲紋確認應用算法技術(shù)要求和測試方法》等行業(yè)標準,可以說(shuō),是一個(gè)絕對的業(yè)內大咖。
在去年8月北京汽車(chē)集團產(chǎn)業(yè)投資有限公司完成對得意音通的A+輪融資后,鄭方眼下并不急于吸納新的融資,他的目標,是先把產(chǎn)品做精、把服務(wù)和推廣做好,爭取在今年內與更多的金融機構和社保單位等領(lǐng)域達成合作,完成他在民用市場(chǎng)的初步布局。
最后,當記者問(wèn)他對未來(lái)公司發(fā)展的構想時(shí),他笑言自己還沒(méi)有想那么長(cháng)遠,只是盡力把當下該做的事情做好,如果有愿望,就是希望公司的產(chǎn)品是對社會(huì )是有用、有價(jià)值的,“做公司不只是為了賺錢(qián),我們一路走下來(lái),艱難的事情也很多,最終堅持到了現在,就是希望我們的產(chǎn)品能夠為大眾提供安全、方便、可靠的身份認證服務(wù),未來(lái)公司董事長(cháng)是不是我都不重要,但我們尋找的,一定是跟我們志同道合、有社會(huì )責任感的合作伙伴,不然我肯定不能把公司交出去撒手不管。”
說(shuō)到這,褪去商人的身份,鄭方大學(xué)教授、科學(xué)家的性格基因又跳脫出來(lái)了……