
標貝科技聯(lián)合創(chuàng )始人兼CTO
語(yǔ)音交互以假亂真,已是顯性訴求
疫情期間,整個(gè)智能語(yǔ)音行業(yè)的表現算是比較好的,語(yǔ)音解決了很多非接觸(手動(dòng))人機交互的應用場(chǎng)景。比如聲控電梯、心理診斷問(wèn)答資訊、疫情防護宣傳制作、商業(yè)街區寫(xiě)字樓語(yǔ)音動(dòng)態(tài)播報等。
像新出現的場(chǎng)景“非接觸的語(yǔ)音控制電梯”,和我們之前一直在使用的智能家居里的芯片組或者算法基本一致,將它們和電梯的控制按鈕集成后就能應用,難度不大。所以在疫情的催化下,只是需求量變多了,原來(lái)不用這些產(chǎn)品或者技術(shù)的公司開(kāi)始考慮用到這些技術(shù),以及增加了少量新的場(chǎng)景,但在應用難度上并沒(méi)有太大的挑戰。
但此次疫情讓人們看到了智能語(yǔ)音的市場(chǎng)空間、應用場(chǎng)景和巨大的市場(chǎng)價(jià)值,推進(jìn)了語(yǔ)音技術(shù)與應用場(chǎng)景結合:
1、市場(chǎng)教育:以前習慣用手動(dòng)操作,基于疫情期間,自身防護健康等角度出發(fā),發(fā)現語(yǔ)音也是一個(gè)很簡(jiǎn)單的交互體驗。
2、廣泛應用:疫情期間創(chuàng )造了很多強語(yǔ)音技術(shù)結合的場(chǎng)景。例如每天有大量疫情動(dòng)態(tài)及防控等信息的通訊需求,通過(guò)語(yǔ)音合成技術(shù),可以快速、規模化的將文本轉為語(yǔ)音收取資訊,這部分的用戶(hù)數據增長(cháng)能達到10倍、甚至幾十倍,我們也看到聲控電梯、外部監測體感語(yǔ)音報警場(chǎng)景大量出現。
3、技術(shù)發(fā)展呈現多樣融合的趨勢。智能語(yǔ)音解決“聽(tīng)、說(shuō)、懂”的問(wèn)題,但應對疫情防護,不可能是單純的語(yǔ)音層面產(chǎn)品形態(tài),而是配合圖像視覺(jué)、人臉識別、紅外體感等技術(shù),來(lái)打造針對疫情一線(xiàn)的綜合防護與檢測產(chǎn)品。比如大屏體溫檢測、醫療機器人送藥問(wèn)診查詢(xún)等應用。
這次疫情,對于很多公司來(lái)說(shuō)也是一次考驗。有成熟的技術(shù)和解決方案的公司,就能夠快速落地,取得一些優(yōu)勢。
以語(yǔ)音交互領(lǐng)域為例,目前語(yǔ)音合成技術(shù)和語(yǔ)音識別技術(shù),相對來(lái)說(shuō)具有較高的成熟度,而語(yǔ)義理解相對來(lái)說(shuō)還比較薄弱。我認為,接下來(lái)行業(yè)對語(yǔ)音的探索不單會(huì )停留在“可用”上,還會(huì )考慮給用戶(hù)帶來(lái)更好的體驗。聲音在交互的時(shí)候,如何能給人帶來(lái)更自然、貼心、溫度,并達到以假亂真的體驗,這已經(jīng)從一個(gè)潛在的訴求變成一個(gè)顯性的訴求。
“聲音復刻”是痛點(diǎn)還是癢點(diǎn)?
在疫情期間,我們看到出現了幾種情況:1、很多家長(cháng)和孩子,因為疫情無(wú)法上班、上學(xué),也無(wú)法外出,居家的時(shí)間大幅增長(cháng),陪伴輔導孩子的任務(wù)驟增;2、有些家長(cháng)由于支持抗疫或者受疫情影響無(wú)法返家,造成春節假期也無(wú)法團聚,相互思念;3、有些疫情嚴重地區,出現感染新冠肺炎的患者死亡的現象,為自己或者自己的親人留下更多的記憶,也變成了一種生死離別下的重要訴求。
我們觀(guān)察到上述的情況后升級了我們之前的產(chǎn)品“標貝留聲機”,它能夠復刻父母聲音,給孩子講故事,這在家長(cháng)圈里引起了廣泛注意,聲音復刻的數量增長(cháng)了500%以上,1-4月份留聲機的用戶(hù)使用數據增長(cháng)了200%。我們之前就有“聲音銀行”的概念,用戶(hù)可以把聲音存儲在我們的云端系統上,就像在銀行存錢(qián)一樣。需要的時(shí)候,就可以應用這個(gè)聲音,生成自己想要的內容。

貝克錄音棚
在智能語(yǔ)音領(lǐng)域,留聲機產(chǎn)品是一個(gè)新的技術(shù)應用,核心技術(shù)是如何利用少量的數據,實(shí)現一個(gè)高相似度的聲音模型。大家可能之前看到過(guò)科學(xué)家霍金,在失去說(shuō)話(huà)能力之后,可以依靠語(yǔ)音合成技術(shù)說(shuō)話(huà),覺(jué)得不可思議。隨著(zhù)技術(shù)的進(jìn)步,這一技術(shù)的應用成本在大幅下降,每個(gè)人都可以擁有自己的聲音。用戶(hù)只需要錄制5分鐘語(yǔ)音內容,等待2小時(shí)左右即可獲得用自己的聲音想說(shuō)就說(shuō)的功能,這在之前其實(shí)是很難想象的。我們也在不斷對技術(shù)進(jìn)行升級,充分利用基于A(yíng)ttention的機制,以及遷移學(xué)習技術(shù),去提升了聲音復刻的效果,改善用戶(hù)體驗,讓聲音的還原度更高,聽(tīng)起來(lái)更像。但因為數據量比較小,如何保證穩定輸出是訓練這種模型時(shí)要面對的挑戰。
我認為,聲音復刻的需求是存在的,但可能只有很少的人知道現在已經(jīng)有這樣的技術(shù)能夠滿(mǎn)足此類(lèi)需求,目前技術(shù)的宣傳還遠遠不夠。當然,也因為這個(gè)技術(shù)出現的時(shí)間比較短,語(yǔ)音不僅僅是信息載體,還承載了一個(gè)人的很多個(gè)人特點(diǎn),包括音色、語(yǔ)氣、語(yǔ)調、風(fēng)格等,在技術(shù)上仍需要持續探索。對一個(gè)新的使用場(chǎng)景,也還需要全行業(yè)一起努力去推動(dòng)它的落地,打造出有一個(gè)標桿性的產(chǎn)品,為用戶(hù)所認識和接受,這還需要一定時(shí)間,這是一個(gè)以點(diǎn)帶面的過(guò)程。只有技術(shù)服務(wù)提供的時(shí)間周期比較長(cháng),才能展現出它的實(shí)際價(jià)值,現在這個(gè)使用場(chǎng)景還處在一個(gè)打磨的階段。
僅僅有聲音還不夠,聲音結合圖像,會(huì )有更為廣闊的空間。近幾年,短視頻的蓬勃發(fā)展,也說(shuō)明了聲音+圖像的巨大市場(chǎng)。因此,“虛擬人”這樣的產(chǎn)品應運而生,它可以覆蓋虛擬主播、虛擬員工、虛擬偶像等各類(lèi)不同的場(chǎng)景,應用于新聞媒體、智能客服、智能銀行、智能城市、泛娛樂(lè )應用等系統當中。
判斷“留聲機”、“虛擬人”這樣的使用場(chǎng)景是否是剛需,可以從價(jià)值創(chuàng )造、及時(shí)性、便利性等不同的方面來(lái)分析。
比如,虛擬人如果可以代替部分人工,那會(huì )為公司節約人力成本,創(chuàng )造價(jià)值。只要是投入成本低于所節約的成本,企業(yè)就會(huì )樂(lè )于投入。比如智能客服為什么能快速發(fā)展,實(shí)際上是這些領(lǐng)域的客戶(hù)嘗到了甜頭,在使用此類(lèi)技術(shù)后,企業(yè)可以降低30%或50%的客服人力成本,大大提升整個(gè)財務(wù)狀況,那么他就會(huì )繼續擴大在這方面的投入。
又比如,傳統的新聞播報有時(shí)效性,而錄音難以實(shí)時(shí)滿(mǎn)足,而且成本較高,采用留聲機或者虛擬人技術(shù),就可以隨時(shí)低成本地生產(chǎn)內容,既滿(mǎn)足了實(shí)時(shí)性的要求,又降低了成本。
再比如,短視頻的編輯,變得越來(lái)越簡(jiǎn)單,但給視頻配上匹配的聲音,往往需要找配音演員,而且對聲音的控制,也涉及到很多專(zhuān)業(yè)的知識。不過(guò)我們的技術(shù)現在還很難做到給影視作品配音,等到合成效果達到這個(gè)水平,我覺(jué)得會(huì )有徹底的變化。

虛擬數字人
逃不開(kāi)的靈魂拷問(wèn)
目前來(lái)看,“留聲機”、“虛擬數字人”市場(chǎng)認知度、成熟度在不斷提升,有些音頻內容或者視頻內容,已經(jīng)融入了這些新技術(shù)產(chǎn)生的音頻或者視頻。但我覺(jué)得目前存在以下幾點(diǎn)挑戰,或者說(shuō)思考的空間,值得全行業(yè)一起去尋找答案:
1、語(yǔ)音合成是科學(xué)與藝術(shù)的結合,比如聲音復刻,一方面需要技術(shù)創(chuàng )新應用,怎么讓聲音效果更逼近人聲效果,合成速度快、效果好的問(wèn)題。另一方面,需要做創(chuàng )新性玩法,打磨出更穩定、更個(gè)性、更差異化的語(yǔ)音應用體驗。后續需要考慮如何提高情感表達方面的技術(shù),這繞不開(kāi)“語(yǔ)義理解”這個(gè)環(huán)節的提升。
2、技術(shù)提供商提供的是核心的技術(shù),每個(gè)具體應用的領(lǐng)域,都有其特殊性,需要深入了解行業(yè),了解用戶(hù),這需要結合產(chǎn)品形態(tài)去做各個(gè)行業(yè)的探索,針對不同產(chǎn)品提供更好的解決方案,這不是一個(gè)復制粘貼的過(guò)程,比如在兒童教育場(chǎng)景,如何利用語(yǔ)音技術(shù),針對不同年齡段開(kāi)發(fā)功能,如何做到“千人千面,如何能夠持續良性發(fā)展,如何反哺技術(shù)研發(fā),都需要深入考慮。
3、商業(yè)化問(wèn)題需要持續關(guān)注。如果產(chǎn)品直接ToC,那就要去驗證用戶(hù)愿不愿意付費的問(wèn)題。我覺(jué)得實(shí)際上對留聲機來(lái)說(shuō),它最終會(huì )是一個(gè)ToC的產(chǎn)品。產(chǎn)品涉及到訓練模型,提供線(xiàn)上服務(wù),如果用戶(hù)沒(méi)有付費意愿,那商業(yè)化的問(wèn)題就比較棘手。如果產(chǎn)品ToB,比如我們會(huì )和玩具廠(chǎng)商、家居、汽車(chē)等有一些合作,如果此類(lèi)合作伙伴不能有很好的商業(yè)模式,那么他們購買(mǎi)我們技術(shù)服務(wù)的動(dòng)力也會(huì )很弱。那么對技術(shù)提供商來(lái)說(shuō),接下來(lái)一方面要考慮降低技術(shù)成本,讓它更容易用很小的成本去嘗試去推廣,去驗證它的商業(yè)模式;另一方面,也要幫助合作伙伴收集用戶(hù)數據去做測試,不斷迭代技術(shù)和產(chǎn)品,讓它在市場(chǎng)端有更好的需求。
4、技術(shù)的應用,有時(shí)會(huì )面臨技術(shù)有罪與無(wú)罪的爭論。我相信大家都很關(guān)心安全風(fēng)險以及監管的問(wèn)題,這是一個(gè)風(fēng)險點(diǎn),但是它可能不會(huì )阻礙整個(gè)技術(shù)的發(fā)展。只是我們在應用技術(shù)的時(shí)候要權衡,是否需要讓聲音保留一些技術(shù)的特征。另外,也需要盡可能提高數據的安全性,比如我們開(kāi)發(fā)了一套完善的賬戶(hù)管理體系,將復刻的聲音或者定制的虛擬人進(jìn)行授權,使之保留在一個(gè)特定的范圍之內,以盡力保持這個(gè)技術(shù)的合法利用。隨著(zhù)這類(lèi)場(chǎng)景不斷普及,我認為也會(huì )陸續有相關(guān)的指導政策出臺,以最大化降低相關(guān)問(wèn)題出現的風(fēng)險。如果要詐騙,其實(shí)一個(gè)真人去打電話(huà),和讓一個(gè)虛擬數字人去打電話(huà),我覺(jué)得本質(zhì)上沒(méi)有區別,就像菜刀有人拿去切菜有人拿去砍人。所以如果做了該做的防范,遵守了相關(guān)的法律法規,在這個(gè)基礎上保持一個(gè)相對開(kāi)放的心態(tài),可能會(huì )利大于弊。我們希望這個(gè)技術(shù)能夠達到真人的效果,但當它快達到100%的時(shí)候又會(huì )有恐慌,這個(gè)問(wèn)題非常復雜,其實(shí)很難有完全正確的答案。
5、理論上,低端、重復性的工作都可以用機器來(lái)代替,但是我們發(fā)現日常生活中還是有很多此類(lèi)崗位存在。技術(shù)完全替代人,基本上可以認為是不可能的。但技術(shù)的發(fā)展在不斷改變技術(shù)替代人的比例,隨著(zhù)人口老齡化,我們的勞動(dòng)力越來(lái)越少,那么在各個(gè)行業(yè)它替代人的占比都會(huì )提升,這最終可能會(huì )變成一個(gè)社會(huì )問(wèn)題。
目前來(lái)看,行業(yè)競爭關(guān)鍵也是考驗語(yǔ)音技術(shù)與配套場(chǎng)景產(chǎn)品結合,未來(lái)一定會(huì )有大批玩家進(jìn)入,不乏BAT這樣的玩家。可以肯定的是,隨著(zhù)大批玩家的涌入,這個(gè)市場(chǎng)會(huì )愈發(fā)成熟,用戶(hù)對新技術(shù)的接受程度會(huì )大大提升。當一個(gè)虛擬人或者智能體說(shuō)話(huà)時(shí)能達到和真人一樣的效果,我相信整個(gè)行業(yè)會(huì )迎來(lái)一個(gè)爆發(fā)。