
從事語(yǔ)音、人工智能行業(yè)近10年,有幸見(jiàn)證并參與了行業(yè)的發(fā)展,也對智能語(yǔ)音在實(shí)際場(chǎng)景中的應用及商業(yè)落地的難點(diǎn)有所體悟。下面是對智能語(yǔ)音技術(shù)的簡(jiǎn)單介紹,并對其在實(shí)際應用中應關(guān)注的核心問(wèn)題提出一些我的思考。
什么是智能語(yǔ)音技術(shù),其發(fā)展如何?
我們平時(shí)接觸的任何語(yǔ)音相關(guān)應用(如微信語(yǔ)音、語(yǔ)音輸入法、外呼機器人等),其實(shí)本質(zhì)都是兩大核心能力的體現——“音轉字ASR”和“字轉音TTS”。結合自然語(yǔ)言處理,理解并處理文本,即組成了人機交互的基本能力。

語(yǔ)音交互的基本模型
智能語(yǔ)音應用基于三大要素:計算機算力、海量數據以及算法模型。隨著(zhù)過(guò)去多年的積累,不同類(lèi)型的語(yǔ)音語(yǔ)料積累的足夠多了,通過(guò)訓練后的語(yǔ)音識別技術(shù)得以快速提升。相對10年前的情況來(lái)看,目前絕大部分語(yǔ)音識別技術(shù)的翻譯準確率都已經(jīng)很不錯了,在噪音處理、語(yǔ)氣語(yǔ)調、語(yǔ)義理解等方面均已大大提升,而最終在商業(yè)化上的能力差異體現關(guān)鍵在于兩點(diǎn):
一,是否擁有核心的自主底層專(zhuān)利技術(shù)與能力?
基于外接技術(shù)或引擎之上的智能語(yǔ)音商業(yè)化落地,終究是“無(wú)根之水“,難以持續的演化及進(jìn)步。坦率的說(shuō),在這條賽道上競爭的廠(chǎng)商能擁有100%自主知識產(chǎn)權核心技術(shù)的并不多,在可預見(jiàn)的未來(lái),這必將形成商業(yè)伙伴選擇供應廠(chǎng)商的重要門(mén)檻。
二,是否有足夠多的商業(yè)落地場(chǎng)景和實(shí)施經(jīng)驗?
智能語(yǔ)音在行業(yè)及商業(yè)上的落地需要腳踏實(shí)地做實(shí)際的事情,解決真實(shí)業(yè)務(wù)上的痛點(diǎn)。大部分客戶(hù)需要的不僅僅是技術(shù),而是一整套解決方案,優(yōu)化改造業(yè)務(wù)流程、項目指導以及經(jīng)驗總結,交流分享。基于“高度重復構件的組合+部分的差異化定制”才是項目成敗的關(guān)鍵。”造輪子“和”組裝輪子“在客戶(hù)的業(yè)務(wù)層面往往意味著(zhù)極大的難度鴻溝與時(shí)間成本,而很多的友商伙伴們尚未真正意識這一點(diǎn)的重要性。
智能語(yǔ)音場(chǎng)景化需要關(guān)注的問(wèn)題
就現在的實(shí)際情況來(lái)說(shuō),語(yǔ)音識別技術(shù)和應用產(chǎn)品如果希望有更好的表現,還是要像過(guò)去幾年那樣持續不斷的去做數據訓練:不同地域口音方言的訓練、不同行業(yè)專(zhuān)業(yè)詞匯的訓練。
既然數據和訓練的投入是持續的,而且硬件及訓練的成本也困擾著(zhù)場(chǎng)景的落地,那么一味為了追求更高的轉譯準確率在成本及效率上是否值得,也是需要深入去思考的。在商業(yè)化落地的角度來(lái)說(shuō),供應商的準確率從85%-90%,與90%-95%的訓練代價(jià)在成本和時(shí)間上的投入,與及客戶(hù)期待是無(wú)法對等的,后者在訓練周期與時(shí)間成本上很可能是前者的5-10倍,但收效甚微,而過(guò)度的追求準確率亦會(huì )嚴重拖慢項目上線(xiàn)的時(shí)間進(jìn)度與人力投入。那么我們在實(shí)際應用中應該如何選擇呢?
我們的建議是從業(yè)務(wù)上不應過(guò)度的追求全文語(yǔ)音轉譯的準確率,而應該聚集于該場(chǎng)景下你所關(guān)注的具體訴求是什么,以場(chǎng)景應用為導向,關(guān)注實(shí)施的執行而不是過(guò)程。不是關(guān)注”全文識別率準不準“,而是”我要識別的那部分準不準“,因為絕大部分的真實(shí)業(yè)務(wù)場(chǎng)景下的語(yǔ)音應用均是限定在某個(gè)特定范圍內。
以語(yǔ)音質(zhì)檢為例,如果以模型質(zhì)檢點(diǎn)相關(guān)的文本來(lái)訓練往往都能實(shí)現90%+,甚至更高的水平,而全文轉譯卻很難達到,但這并不影響語(yǔ)音質(zhì)檢的實(shí)際應用,因為在該場(chǎng)景下,只要與質(zhì)檢點(diǎn)及模型相關(guān)的那部分語(yǔ)音識別準確率能達到即可為質(zhì)檢工作提供高效及有力的支撐。
大部分質(zhì)檢的實(shí)際工作的真實(shí)關(guān)注點(diǎn)是所謂的“質(zhì)檢項”是否滿(mǎn)足即可,全文的語(yǔ)音轉譯是否準確在該場(chǎng)景下是一種類(lèi)似”白噪音“的存在,準確與否在大多數的情況下并不會(huì )影響該場(chǎng)景的真實(shí)應用,這就是一種”應用為先“的思考考量。
因此,請不妨嘗試著(zhù)以這個(gè)思路來(lái)分析一下你手中的業(yè)務(wù)場(chǎng)景:“你想要識別的內容”應該不會(huì )很多很多,而自然語(yǔ)言中其實(shí)還含有與你希望利用的業(yè)務(wù)價(jià)值大量無(wú)關(guān)的,諸如無(wú)意義語(yǔ)氣詞,重復語(yǔ)句等。所以,語(yǔ)音識別并不一定需要非常高的準確率,它并不會(huì )實(shí)際阻礙你去利用該技術(shù)實(shí)現語(yǔ)音文本分析及探索業(yè)務(wù)價(jià)值。
圖像識別技術(shù)(OCR)技術(shù)就是一個(gè)很好的案例來(lái)說(shuō)明這個(gè)問(wèn)題,從普遍的識別準確性來(lái)看(類(lèi)似于語(yǔ)音的全文轉譯準確率),OCR并不如大家想像中的智能,準確率亦沒(méi)有想像中的高,通用性場(chǎng)景下基本都低于85%。以停車(chē)場(chǎng)車(chē)牌識別為例,該場(chǎng)景車(chē)牌識別上卻非常普遍好用,準確度也高,就是利用了這種場(chǎng)景化下的針對訓練(車(chē)牌識別所需的范圍是相對可控的,要識別的對象也很有限——近場(chǎng)識別,字母、數字,車(chē)牌形狀統一),同時(shí)拋棄了其他無(wú)用識別的干擾。
這就是筆者上面所說(shuō)的“應用為先”的思考思路,類(lèi)似的例子還有很多,請大家不妨試試跳出思維的定式框框來(lái)重新思考您在實(shí)際應用中的智能語(yǔ)音應用場(chǎng)景。