說(shuō)話(huà)的奇妙之處在于,有時(shí)候重要的不是看說(shuō)了什么,而是要看是怎么說(shuō)的。擁有四聲和平仄的中文尤為如此。這一點(diǎn),聽(tīng)到過(guò)客戶(hù)尖酸刻薄的挖苦之話(huà)的客服接線(xiàn)員想必感觸最深。自動(dòng)語(yǔ)音系統無(wú)法識別這種語(yǔ)氣方面的細微差別,所以各個(gè)公司不得不維系大量的人工客服人員。不過(guò)英國的初創(chuàng )企業(yè)EI Technologies正在研發(fā)的一種語(yǔ)音識別平臺有望讓機器的理解里取得突破,該平臺可通過(guò)音質(zhì)分析來(lái)識別情緒,據說(shuō)其準確率已經(jīng)超過(guò)了人耳的平均水平。
EI的技術(shù)可以分析人聲的音調,更加注重“聲學(xué)特征”而非言語(yǔ)內容—其最初的目的是幫助一款移動(dòng)應用根據和監控用戶(hù)的情緒。這款移動(dòng)應用名字叫做Xpression,今年年末會(huì )推出封閉內測版,主要面向Quantified Self的成員提供。“量化自我”的目的在于找出個(gè)人的生活方式是如何影響其幸福的。不過(guò)其主要功能是作為這項技術(shù)的試驗臺,找出平臺最可行的業(yè)務(wù)場(chǎng)景。
這種技術(shù)可以改進(jìn)人機交互體驗,增強自動(dòng)響應的正確率,在呼叫中心、醫療保健等垂直領(lǐng)域均有應用空間。
之所以首先選擇發(fā)布量化自我的應用而不是直奔垂直領(lǐng)域,是因為這個(gè)技術(shù)關(guān)乎對潛在客戶(hù)群的認識能力。發(fā)布量化自我的應用有助于消費者了解這項技術(shù)及其能力,也能有助于公司了解技術(shù)有多好,需要做到什么程度。
通過(guò)識別并恰當響應語(yǔ)言?xún)热莺颓榫w來(lái)增強自然語(yǔ)言處理算法似乎是人工智能系統的下一步發(fā)展方向。《銀翼殺手》里面的復制人的致命缺陷正是缺乏“移情(empathy)”能力。現在EI的技術(shù)正幫助機器朝著(zhù)具備“移情”能力邁出一小步—首先學(xué)會(huì )感受人類(lèi)的情緒。不過(guò)相對于那個(gè)宏大的目標,目前EI主要關(guān)注于實(shí)用性的,近期有可能實(shí)現的商業(yè)機會(huì ),所以系統只會(huì )選擇性地識別部分情緒,僅針對特定的場(chǎng)景。
目前系統可識別5種基本情緒:高興、悲傷、害怕、憤怒及無(wú)感情。識別的準確率約為70-80%左右,這個(gè)數字要高于人類(lèi)60%的平均水平。而受過(guò)訓練的心理學(xué)家的判斷準確率約為70%,從這些數據來(lái)看,EI的算法準確率已經(jīng)非常可觀(guān)。其未來(lái)目標是進(jìn)一步提高到80-90%。
系統首先會(huì )找出“關(guān)鍵聲學(xué)特征”,然后將其與一個(gè)分類(lèi)系統進(jìn)行對照檢錄,從而匹配出5種情緒中的一種。這里面運用了機器學(xué)習和大量的數學(xué)。此外,EI還聘請了東英格蘭大學(xué)的語(yǔ)音識別專(zhuān)家Stephen Cox來(lái)調整算法效果。此前該教授曾參與過(guò)蘋(píng)果和Nuance公司的語(yǔ)音識別系統研發(fā)。
當然,要想識別出反感、厭倦等更為復雜的情緒,EI將面臨更多的挑戰。因為這些情緒涉及的聲音信號更加微妙。不過(guò),從商業(yè)角度來(lái)看,集中于那五種基本情緒更有意義。
從事情緒識別研究的公司不止EI一家。以色列的初創(chuàng )企業(yè)Beyond Verbal、MIT的Cogito也是少數競爭者之一。不過(guò)這些競爭對手的目標略有不同,其關(guān)注點(diǎn)是識別出某人希望被感知到的方式,而非即刻的“情緒層”。EI與競爭對手的區別還在于,EI的技術(shù)是作用于客戶(hù)端設備的,而其他的競爭對手則需要云處理技術(shù),這意味著(zhù)必須連接到網(wǎng)上才能發(fā)揮作用。無(wú)需聯(lián)網(wǎng)的特點(diǎn)令EI的技術(shù)可被運用到汽車(chē)等對象上。
EI目前從孵化器Wayra London和英國政府的Technology Strategy Board拿到了15萬(wàn)英鎊的種子期融資,計劃明年2月進(jìn)行下一輪的融資。