
過(guò)去三十年里,語(yǔ)音識別是這樣的:您能夠和自己的計算機交談,通常使用頭戴式麥克風(fēng),使用微軟Windows中未公開(kāi)的語(yǔ)音識別應用軟件,或者Nuance通信公司“龍自然語(yǔ)言”版的應用軟件。如果您發(fā)音很清晰,那么屏幕上就會(huì )顯示出單詞,然后執行命令。
今天,改進(jìn)很大的語(yǔ)音識別技術(shù)得到了廣泛應用,在過(guò)去兩年中,它催生了一類(lèi)新的消費系列產(chǎn)品:語(yǔ)音控制的個(gè)人助理。VoiceLabs公司為語(yǔ)音應用軟件開(kāi)發(fā)人員提供分析技術(shù),該公司創(chuàng )始人之一AdamMarchick表示:“這是經(jīng)過(guò)了30年的沉淀而一夜成名。它終于變得足夠精確,足以能進(jìn)行對話(huà)了。”
和大多數技術(shù)一樣,語(yǔ)音識別的發(fā)展也是逐步的。2017年8月,微軟宣布,根據行業(yè)標準測試,其會(huì )話(huà)語(yǔ)音識別系統的單詞識別準確度已經(jīng)超過(guò)了專(zhuān)業(yè)人類(lèi)轉錄員的識別準確度。在此類(lèi)測試中,專(zhuān)業(yè)人員的平均錯誤率為5.9%,而微軟系統達到了5.1%。
微軟技術(shù)研究員,也是該公司語(yǔ)音和語(yǔ)言部負責人黃學(xué)東說(shuō):“這就像夢(mèng)想成真。1993年我們在微軟開(kāi)始語(yǔ)音識別時(shí),錯誤率大約是80%。1982年,我在讀研究生的時(shí)候開(kāi)始研究語(yǔ)音識別技術(shù),那時(shí),我們面對的是孤立的單詞,根本不敢想象軟件能夠像人那樣識別出對話(huà)。”
Nuance首席技術(shù)官Vlad Sejnoha說(shuō):“今天,如果您在一間安靜的辦公室里,清晰的用普通口音說(shuō)話(huà),那么語(yǔ)音識別準確率能接近100%。”
這樣的準確度意味著(zhù)人們能更好的與自己的電話(huà)進(jìn)行交談,更輕松高效的與客戶(hù)服務(wù)呼叫中心的機器人聊天,在家里和辦公室里使用語(yǔ)音命令。
逐漸累積的進(jìn)步
Sejnoha說(shuō),該技術(shù)能夠達到目前的水平,也是一步步走過(guò)來(lái)的。Sejnoha說(shuō):“15到20年來(lái),我們使用的主要技術(shù)是基于統計學(xué)的,特別是隱藏Markov模型。我們有各種各樣的模型來(lái)預測這個(gè)片段是某個(gè)特定音素產(chǎn)生的可能性,或者某個(gè)單詞應該合理的出現在某種上下文環(huán)境中。我們開(kāi)發(fā)了各種變體,并且能夠穩步進(jìn)展。
他補充說(shuō):“近年來(lái),傳統的統計方法已經(jīng)被深度學(xué)習(神經(jīng)網(wǎng)絡(luò ))模型所取代,這些模型非常靈活,而且比以前更能推動(dòng)系統的發(fā)展。結果在過(guò)去10年中,錯誤率平均每年下降20%。”他說(shuō),語(yǔ)音識別現在能夠為更多的人提供服務(wù),用在各種各樣的環(huán)境中。Sejnoha舉了一個(gè)語(yǔ)音識別仍然不能很好工作的例子,他說(shuō):“在雞尾酒會(huì )上還是要喊。”
Sejnoha預計每年20%的改善率仍然會(huì )繼續下去,不僅越來(lái)越適應嘈雜的環(huán)境,而且還能適應很多特殊的情況。他指出:“理解多種語(yǔ)言越來(lái)越重要,在歐洲借助GPS地圖,還必須做一些工作,比如理解德國司機所說(shuō)的法語(yǔ)地名。普通話(huà)有很多外來(lái)詞,其發(fā)音因人而異。”
關(guān)鍵點(diǎn)
隨著(zhù)每年20%改善率的累積,大廠(chǎng)商開(kāi)始使用深度學(xué)習來(lái)制作自己的語(yǔ)音識別引擎。后來(lái),他們越來(lái)越信任該技術(shù),認為它足以支持新一類(lèi)消費產(chǎn)品——個(gè)人助理,先是作為應用軟件(例如,蘋(píng)果的Siri和微軟的Cortana),后來(lái)作為獨立的設備(例如,基于A(yíng)lexa服務(wù)的亞馬遜的Echo,基于谷歌助理服務(wù)的谷歌Home,等)。
這類(lèi)系統的語(yǔ)音識別是在云中進(jìn)行的。這些設備在收到“OK Google”類(lèi)似的命令提醒后,開(kāi)始收聽(tīng),傳送出語(yǔ)音數據。
Marchick解釋說(shuō):“設備非常薄,就像Unix終端一樣。計算機在云中,它們會(huì )待命,聽(tīng)它們的名字,就是這樣。”
語(yǔ)音和視覺(jué)技術(shù)公司Sensory首席執行官ToddMozer補充說(shuō):“長(cháng)期以來(lái),語(yǔ)音識別的重點(diǎn)一直放在計算機上,但在過(guò)去的5到10年間,重點(diǎn)轉向了消費類(lèi)技術(shù)。第一個(gè)關(guān)鍵事件是SteveJobs發(fā)布了Siri,表明了對語(yǔ)音識別的支持。蘋(píng)果無(wú)論做什么都會(huì )是消費類(lèi)電子產(chǎn)品的典范。第二個(gè)關(guān)鍵事件是亞馬遜發(fā)布基于A(yíng)lexa的產(chǎn)品,例如Echo。”
Marchick說(shuō):“當我們在一年前開(kāi)始這項業(yè)務(wù)時(shí),市場(chǎng)上只有亞馬遜的Echo,以及幾萬(wàn)臺設備。很快Echo將面對7個(gè)競爭對手,預計今年年底會(huì )有三千三百萬(wàn)臺設備投入使用。語(yǔ)音交互會(huì )大幅度攀升。此前,有三百人為這些設備制作語(yǔ)音應用程序。而一年后的現在,有一萬(wàn)六千人。”
Marchick說(shuō),Echo的競爭對手包括谷歌Home,再加上未發(fā)布的蘋(píng)果HomePod;運行微軟Cortana的未發(fā)布的Harman/KardonInvoke;還有三星Galaxy智能手機的三星Bixby;其中至少有兩個(gè)是中文系統。
擴展應用
但事實(shí)證明,這些供應商通常會(huì )提供軟件開(kāi)發(fā)工具包,使其語(yǔ)音識別引擎能夠被用來(lái)開(kāi)發(fā)使用自然語(yǔ)言作為接口的應用程序。對話(huà)技術(shù)公司顧問(wèn)Deborah Dahl說(shuō):“自然語(yǔ)言和語(yǔ)音識別令人興奮之處在于這些工具包的開(kāi)發(fā)。他們對其進(jìn)行設置,以便普通開(kāi)發(fā)人員都能夠使用在線(xiàn)工具創(chuàng )建口語(yǔ)系統。這真的降低了難度,所以不需要成為自然語(yǔ)言專(zhuān)家便能夠開(kāi)發(fā)客戶(hù)服務(wù)應用程序。”
SherifMityas是達拉斯TGI星期五連鎖餐廳的首席信息官,說(shuō)他的公司能夠在5個(gè)月內啟動(dòng)一個(gè)基于語(yǔ)音的接口應用程序,該應用程序是采用亞馬遜Alexa工具包Lex開(kāi)發(fā)的。他補充道,對于手機用戶(hù)和亞馬遜Echo用戶(hù),它用起來(lái)也是一樣的,唯一的區別是手機用戶(hù)通常四處走動(dòng),需要確定方向。
Marchick說(shuō):“應用程序開(kāi)發(fā)過(guò)程就像創(chuàng )建一個(gè)網(wǎng)頁(yè)。您有很多服務(wù)可以使用,您編寫(xiě)代碼,然后發(fā)布代碼,最后進(jìn)行測試。”
Dahl指出,“如果您花幾天的時(shí)間去適應GUI,那么這個(gè)過(guò)程會(huì )非常簡(jiǎn)單。最難的是,它們不會(huì )幫助您設計應用程序——如果您對結果沒(méi)有一個(gè)清晰的概念,那么當您看到?jīng)]有覆蓋所有應該覆蓋的用例時(shí),您不得不回頭去做大量的返工工作。”以一個(gè)比薩訂購應用程序為例,“您必須想清楚所有需要由用戶(hù)提供的東西:澆料、厚度、尺寸和醬汁,等等。您可以在幾星期內自己完成,但是必須和訂購系統的后端保持一致。”
Mityas說(shuō),TGI星期五餐廳應用軟件的主要難點(diǎn)是怎樣簡(jiǎn)化菜單選項。他說(shuō),菜單上有15個(gè)配菜,如果讓Alexa去列出這些菜會(huì )很麻煩,但開(kāi)發(fā)人員發(fā)現他們可以列出最受歡迎的三個(gè)配菜,然后讓用戶(hù)去選擇更多的配菜。
Dahl說(shuō):“在現實(shí)生活中,您不會(huì )去預測用戶(hù)會(huì )說(shuō)什么。用戶(hù)總是出人意料,所以會(huì )有一段時(shí)間的調整。”比薩訂購應用軟件的用戶(hù)“會(huì )問(wèn)起面包棒。他們會(huì )要求您不要像上次那樣沒(méi)做熟。系統必須采集到這些,否則就會(huì )徹底失敗。”
為預測用戶(hù)會(huì )說(shuō)些什么,對話(huà)人工智能系統(例如,企業(yè)虛擬客服)提供商NextIT最先研究了企業(yè)與公眾互動(dòng)最有可能使用的詞匯。
NextIT總裁Tracy Malingo表示:“作為經(jīng)驗,當我們?yōu)榱诵驴蛻?hù)而接觸一個(gè)新商業(yè)領(lǐng)域時(shí),我們希望有1萬(wàn)到2萬(wàn)次經(jīng)過(guò)策劃的對話(huà),我們可以從中獲取數據。這些可以是電話(huà)、聊天記錄、推特饋送——我們將處理任何涉及企業(yè)和消費者之間來(lái)回交互的文本對話(huà)。”
Mityas指出,使用語(yǔ)音交互比基于文本的交互效果更好,因為用戶(hù)可以暢所欲言,建立起人工智能可以使用的情景。他補充說(shuō),文本交互往往只是孤立的問(wèn)題。
最后,Malingo說(shuō),訓練虛擬客服的時(shí)間和培訓人類(lèi)客服的時(shí)間大致相同。她指出:“而虛擬客服一旦完成訓練,它就永遠不會(huì )休息,每天工作24小時(shí),回答成千上萬(wàn)的問(wèn)題。”
Malingo解釋說(shuō),虛擬客服的成本取決于應用程序和行業(yè)的復雜性。但是其成本比率通常是固定的,她說(shuō):“如果一個(gè)現場(chǎng)電話(huà)的成本是一美元,那么與現場(chǎng)客服進(jìn)行網(wǎng)絡(luò )文本聊天的成本是50美分,因為客服每次可以同時(shí)進(jìn)行多個(gè)聊天。而虛擬客服的成本將是5美分。”
Mityas可以為私有企業(yè)TGI星期五餐廳提供免費的數據,但他說(shuō),使用語(yǔ)音識別技術(shù)已經(jīng)使在線(xiàn)用戶(hù)的參與度提高了兩倍,在不到一年的時(shí)間里,外賣(mài)的銷(xiāo)量也翻了一倍。
升級點(diǎn)
Malingo說(shuō),虛擬客服的使用并不意味著(zhù)所有的人類(lèi)客服都會(huì )被取代。實(shí)際情況是,“升級點(diǎn)”(在這一點(diǎn),致電者必須被轉給現場(chǎng)客服)被抬高了。
員工福利管理公司Alight解決方案公司技術(shù)總監Ibrahim Khoury對此表示同意,升級點(diǎn)是關(guān)鍵。Khoury說(shuō),通過(guò)引入自然語(yǔ)言客服來(lái)處理每年的招聘活動(dòng),公司能夠把轉給人類(lèi)客服的對話(huà)減少94%。
采用了虛擬客服后,Khoury補充說(shuō):“我們正在努力解決大批量的低價(jià)值問(wèn)題,讓客戶(hù)快速提問(wèn),快速得到答案。Khoury說(shuō):”這為人類(lèi)客服處理少量的高價(jià)值問(wèn)題打開(kāi)了大門(mén),比如‘我失去了我的配偶’該怎么辦?“
但調整不會(huì )結束。如果系統能回答85%到90%的問(wèn)題,您會(huì )很高興。它在開(kāi)始時(shí)可能會(huì )停留在60%左右。但總有10%的問(wèn)題系統永遠無(wú)法理解。
Malingo指出,與機器人交互的時(shí)間通常要少一些,因為閑聊少了。她補充說(shuō):“然而,這是令人愉快的,人們幾乎每次都要感謝機器人。”
至于實(shí)際的可靠性,Marchick說(shuō):“當您可以限制應用程序時(shí),例如,只談?wù)撆_,那么語(yǔ)音識別的質(zhì)量是驚人的。但是當您進(jìn)行一般的對話(huà)時(shí),您還沒(méi)有把該技術(shù)完全理想化,因此,即使出現怪異的對話(huà),您也不會(huì )誤解它。如果您想在開(kāi)會(huì )和記筆記的時(shí)候打開(kāi)它,那真的很難,因為會(huì )議可能是關(guān)于任何主題的,而要想總結對話(huà)也真的很難。如果您在酒店房間里使用它來(lái)處理您想要的有限的操作——音樂(lè )、客房服務(wù),或者電影,環(huán)境受到一定限制,它會(huì )工作得很好。”Dahl指出,識別引擎通常會(huì )為每個(gè)單詞返回一個(gè)介于0和1之間的置信度值,程序員可以決定什么時(shí)候要求用戶(hù)要求重說(shuō)一遍。然而,怎樣確定好的置信度是一種藝術(shù),如果置信度模糊不清,會(huì )導致用戶(hù)被接二連三的要求重說(shuō)一遍,引起用戶(hù)的反感。
她說(shuō):“如果問(wèn)用戶(hù),您說(shuō)的是‘美國’還是‘USA’,這就會(huì )讓用戶(hù)反感。”并且,Dahl警告說(shuō),“如果設計考慮的太多,那就會(huì )沒(méi)完沒(méi)了,這包括:地區口音、兒童、惡意用戶(hù)、隱私等等考慮因素。”
然而,識別引擎的選擇并不是重要的考慮因素。當被問(wèn)及哪家供應商的產(chǎn)品更適合哪項工作時(shí),Malingo說(shuō),“我們看不出他們之間的差異。”
另一個(gè)關(guān)鍵點(diǎn)
當普遍認為語(yǔ)音識別已經(jīng)足夠好的時(shí)候,2017年4月12日發(fā)生的一件事改變了人們的看法,當時(shí),漢堡王(BurgerKing)播放了一則電視廣告,想要欺騙任何正在收聽(tīng)廣告的谷歌Home設備。
在廣告中,主持人說(shuō),“您正在收看的是一個(gè)15秒鐘的漢堡王廣告,遺憾的是我們沒(méi)有足夠的時(shí)間來(lái)解釋W(xué)hopper三明治有什么樣的新鮮食材。但我有個(gè)主意。那么,谷歌,Whopper漢堡是什么?“
所有聽(tīng)到這個(gè)問(wèn)題的谷歌Home設備,其回答都是背誦維基百科上Whopper漢堡頁(yè)面的內容。一位不愿透露姓名的谷歌女發(fā)言人說(shuō),谷歌在當天阻止了這種回答。她說(shuō):“我們的主要目標是,谷歌Home在您需要的時(shí)候提供幫助,而不是在您不想要的時(shí)候幫助您。”
同時(shí),語(yǔ)音識別顧問(wèn)BillMeisel指出,如果您想要使用語(yǔ)音識別工具在計算機上撰寫(xiě)文本,那么,Windows語(yǔ)音識別和Dragon Naturally Speaking仍然是不錯的選擇。他補充說(shuō):“這是律師和醫生的專(zhuān)業(yè)領(lǐng)域——但如果您想在手機上口述筆記,Cortana會(huì )讓您得償所愿。”
至于最終會(huì )怎樣,黃指出,“PC讓計算普及開(kāi)來(lái),而移動(dòng)計算讓PC普及開(kāi)來(lái)。下一轉變將是環(huán)境計算,那時(shí),您不會(huì )被束縛在設備上。語(yǔ)音識別將是這種轉變的核心所在。”
Mityas對此表示同意。他說(shuō):“10年后,沒(méi)有人會(huì )再使用應用軟件。他們與設備交談,使用鍵盤(pán)的日子很快就會(huì )過(guò)去。”