標貝科技聯(lián)合創(chuàng)始人兼CTO

　　語音交互以假亂真，已是顯性訴求

　　疫情期間，整個智能語音行業(yè)的表現(xiàn)算是比較好的，語音解決了很多非接觸（手動）人機交互的應(yīng)用場景。比如聲控電梯、心理診斷問答資訊、疫情防護宣傳制作、商業(yè)街區(qū)寫字樓語音動態(tài)播報等。

　　像新出現(xiàn)的場景“非接觸的語音控制電梯”，和我們之前一直在使用的智能家居里的芯片組或者算法基本一致，將它們和電梯的控制按鈕集成后就能應(yīng)用，難度不大。所以在疫情的催化下，只是需求量變多了，原來不用這些產(chǎn)品或者技術(shù)的公司開始考慮用到這些技術(shù)，以及增加了少量新的場景，但在應(yīng)用難度上并沒有太大的挑戰(zhàn)。

　　但此次疫情讓人們看到了智能語音的市場空間、應(yīng)用場景和巨大的市場價值，推進了語音技術(shù)與應(yīng)用場景結(jié)合：

　　1、市場教育：以前習慣用手動操作，基于疫情期間，自身防護健康等角度出發(fā)，發(fā)現(xiàn)語音也是一個很簡單的交互體驗。

　　2、廣泛應(yīng)用：疫情期間創(chuàng)造了很多強語音技術(shù)結(jié)合的場景。例如每天有大量疫情動態(tài)及防控等信息的通訊需求，通過語音合成技術(shù)，可以快速、規(guī)模化的將文本轉(zhuǎn)為語音收取資訊，這部分的用戶數(shù)據(jù)增長能達到10倍、甚至幾十倍，我們也看到聲控電梯、外部監(jiān)測體感語音報警場景大量出現(xiàn)。

　　3、技術(shù)發(fā)展呈現(xiàn)多樣融合的趨勢。智能語音解決“聽、說、懂”的問題，但應(yīng)對疫情防護，不可能是單純的語音層面產(chǎn)品形態(tài)，而是配合圖像視覺、人臉識別、紅外體感等技術(shù)，來打造針對疫情一線的綜合防護與檢測產(chǎn)品。比如大屏體溫檢測、醫(yī)療機器人送藥問診查詢等應(yīng)用。

　　這次疫情，對于很多公司來說也是一次考驗。有成熟的技術(shù)和解決方案的公司，就能夠快速落地，取得一些優(yōu)勢。

　　以語音交互領(lǐng)域為例，目前語音合成技術(shù)和語音識別技術(shù)，相對來說具有較高的成熟度，而語義理解相對來說還比較薄弱。我認為，接下來行業(yè)對語音的探索不單會停留在“可用”上，還會考慮給用戶帶來更好的體驗。聲音在交互的時候，如何能給人帶來更自然、貼心、溫度，并達到以假亂真的體驗，這已經(jīng)從一個潛在的訴求變成一個顯性的訴求。

　　“聲音復(fù)刻”是痛點還是癢點？

　　在疫情期間，我們看到出現(xiàn)了幾種情況:1、很多家長和孩子，因為疫情無法上班、上學，也無法外出，居家的時間大幅增長，陪伴輔導孩子的任務(wù)驟增；2、有些家長由于支持抗疫或者受疫情影響無法返家，造成春節(jié)假期也無法團聚，相互思念；3、有些疫情嚴重地區(qū)，出現(xiàn)感染新冠肺炎的患者死亡的現(xiàn)象，為自己或者自己的親人留下更多的記憶，也變成了一種生死離別下的重要訴求。

　　我們觀察到上述的情況后升級了我們之前的產(chǎn)品“標貝留聲機”，它能夠復(fù)刻父母聲音，給孩子講故事，這在家長圈里引起了廣泛注意，聲音復(fù)刻的數(shù)量增長了500%以上，1-4月份留聲機的用戶使用數(shù)據(jù)增長了200%。我們之前就有“聲音銀行”的概念，用戶可以把聲音存儲在我們的云端系統(tǒng)上，就像在銀行存錢一樣。需要的時候，就可以應(yīng)用這個聲音，生成自己想要的內(nèi)容。

貝克錄音棚

　　在智能語音領(lǐng)域，留聲機產(chǎn)品是一個新的技術(shù)應(yīng)用，核心技術(shù)是如何利用少量的數(shù)據(jù)，實現(xiàn)一個高相似度的聲音模型。大家可能之前看到過科學家霍金，在失去說話能力之后，可以依靠語音合成技術(shù)說話，覺得不可思議。隨著技術(shù)的進步，這一技術(shù)的應(yīng)用成本在大幅下降，每個人都可以擁有自己的聲音。用戶只需要錄制5分鐘語音內(nèi)容，等待2小時左右即可獲得用自己的聲音想說就說的功能，這在之前其實是很難想象的。我們也在不斷對技術(shù)進行升級，充分利用基于Attention的機制，以及遷移學習技術(shù)，去提升了聲音復(fù)刻的效果，改善用戶體驗，讓聲音的還原度更高，聽起來更像。但因為數(shù)據(jù)量比較小，如何保證穩(wěn)定輸出是訓練這種模型時要面對的挑戰(zhàn)。

　　我認為，聲音復(fù)刻的需求是存在的，但可能只有很少的人知道現(xiàn)在已經(jīng)有這樣的技術(shù)能夠滿足此類需求，目前技術(shù)的宣傳還遠遠不夠。當然，也因為這個技術(shù)出現(xiàn)的時間比較短，語音不僅僅是信息載體，還承載了一個人的很多個人特點，包括音色、語氣、語調(diào)、風格等，在技術(shù)上仍需要持續(xù)探索。對一個新的使用場景，也還需要全行業(yè)一起努力去推動它的落地，打造出有一個標桿性的產(chǎn)品，為用戶所認識和接受，這還需要一定時間，這是一個以點帶面的過程。只有技術(shù)服務(wù)提供的時間周期比較長，才能展現(xiàn)出它的實際價值，現(xiàn)在這個使用場景還處在一個打磨的階段。

　　僅僅有聲音還不夠，聲音結(jié)合圖像，會有更為廣闊的空間。近幾年，短視頻的蓬勃發(fā)展，也說明了聲音+圖像的巨大市場。因此，“虛擬人”這樣的產(chǎn)品應(yīng)運而生，它可以覆蓋虛擬主播、虛擬員工、虛擬偶像等各類不同的場景，應(yīng)用于新聞媒體、智能客服、智能銀行、智能城市、泛娛樂應(yīng)用等系統(tǒng)當中。

　　判斷“留聲機”、“虛擬人”這樣的使用場景是否是剛需，可以從價值創(chuàng)造、及時性、便利性等不同的方面來分析。

　　比如，虛擬人如果可以代替部分人工，那會為公司節(jié)約人力成本，創(chuàng)造價值。只要是投入成本低于所節(jié)約的成本，企業(yè)就會樂于投入。比如智能客服為什么能快速發(fā)展，實際上是這些領(lǐng)域的客戶嘗到了甜頭，在使用此類技術(shù)后，企業(yè)可以降低30%或50%的客服人力成本，大大提升整個財務(wù)狀況，那么他就會繼續(xù)擴大在這方面的投入。

　　又比如，傳統(tǒng)的新聞播報有時效性，而錄音難以實時滿足，而且成本較高，采用留聲機或者虛擬人技術(shù)，就可以隨時低成本地生產(chǎn)內(nèi)容，既滿足了實時性的要求，又降低了成本。

　　再比如，短視頻的編輯，變得越來越簡單，但給視頻配上匹配的聲音，往往需要找配音演員，而且對聲音的控制，也涉及到很多專業(yè)的知識。不過我們的技術(shù)現(xiàn)在還很難做到給影視作品配音，等到合成效果達到這個水平，我覺得會有徹底的變化。

虛擬數(shù)字人

　　逃不開的靈魂拷問

　　目前來看，“留聲機”、“虛擬數(shù)字人”市場認知度、成熟度在不斷提升，有些音頻內(nèi)容或者視頻內(nèi)容，已經(jīng)融入了這些新技術(shù)產(chǎn)生的音頻或者視頻。但我覺得目前存在以下幾點挑戰(zhàn)，或者說思考的空間，值得全行業(yè)一起去尋找答案：

　　1、語音合成是科學與藝術(shù)的結(jié)合，比如聲音復(fù)刻，一方面需要技術(shù)創(chuàng)新應(yīng)用，怎么讓聲音效果更逼近人聲效果，合成速度快、效果好的問題。另一方面，需要做創(chuàng)新性玩法，打磨出更穩(wěn)定、更個性、更差異化的語音應(yīng)用體驗。后續(xù)需要考慮如何提高情感表達方面的技術(shù)，這繞不開“語義理解”這個環(huán)節(jié)的提升。

　　2、技術(shù)提供商提供的是核心的技術(shù)，每個具體應(yīng)用的領(lǐng)域，都有其特殊性，需要深入了解行業(yè)，了解用戶，這需要結(jié)合產(chǎn)品形態(tài)去做各個行業(yè)的探索，針對不同產(chǎn)品提供更好的解決方案，這不是一個復(fù)制粘貼的過程，比如在兒童教育場景，如何利用語音技術(shù)，針對不同年齡段開發(fā)功能，如何做到“千人千面，如何能夠持續(xù)良性發(fā)展，如何反哺技術(shù)研發(fā)，都需要深入考慮。

　　3、商業(yè)化問題需要持續(xù)關(guān)注。如果產(chǎn)品直接ToC，那就要去驗證用戶愿不愿意付費的問題。我覺得實際上對留聲機來說，它最終會是一個ToC的產(chǎn)品。產(chǎn)品涉及到訓練模型，提供線上服務(wù)，如果用戶沒有付費意愿，那商業(yè)化的問題就比較棘手。如果產(chǎn)品ToB，比如我們會和玩具廠商、家居、汽車等有一些合作，如果此類合作伙伴不能有很好的商業(yè)模式，那么他們購買我們技術(shù)服務(wù)的動力也會很弱。那么對技術(shù)提供商來說，接下來一方面要考慮降低技術(shù)成本，讓它更容易用很小的成本去嘗試去推廣，去驗證它的商業(yè)模式；另一方面，也要幫助合作伙伴收集用戶數(shù)據(jù)去做測試，不斷迭代技術(shù)和產(chǎn)品，讓它在市場端有更好的需求。

　　4、技術(shù)的應(yīng)用，有時會面臨技術(shù)有罪與無罪的爭論。我相信大家都很關(guān)心安全風險以及監(jiān)管的問題，這是一個風險點，但是它可能不會阻礙整個技術(shù)的發(fā)展。只是我們在應(yīng)用技術(shù)的時候要權(quán)衡，是否需要讓聲音保留一些技術(shù)的特征。另外，也需要盡可能提高數(shù)據(jù)的安全性，比如我們開發(fā)了一套完善的賬戶管理體系，將復(fù)刻的聲音或者定制的虛擬人進行授權(quán)，使之保留在一個特定的范圍之內(nèi)，以盡力保持這個技術(shù)的合法利用。隨著這類場景不斷普及，我認為也會陸續(xù)有相關(guān)的指導政策出臺，以最大化降低相關(guān)問題出現(xiàn)的風險。如果要詐騙，其實一個真人去打電話，和讓一個虛擬數(shù)字人去打電話，我覺得本質(zhì)上沒有區(qū)別，就像菜刀有人拿去切菜有人拿去砍人。所以如果做了該做的防范，遵守了相關(guān)的法律法規(guī)，在這個基礎(chǔ)上保持一個相對開放的心態(tài)，可能會利大于弊。我們希望這個技術(shù)能夠達到真人的效果，但當它快達到100%的時候又會有恐慌，這個問題非常復(fù)雜，其實很難有完全正確的答案。

　　5、理論上，低端、重復(fù)性的工作都可以用機器來代替，但是我們發(fā)現(xiàn)日常生活中還是有很多此類崗位存在。技術(shù)完全替代人，基本上可以認為是不可能的。但技術(shù)的發(fā)展在不斷改變技術(shù)替代人的比例，隨著人口老齡化，我們的勞動力越來越少，那么在各個行業(yè)它替代人的占比都會提升，這最終可能會變成一個社會問題。

　　目前來看，行業(yè)競爭關(guān)鍵也是考驗語音技術(shù)與配套場景產(chǎn)品結(jié)合，未來一定會有大批玩家進入，不乏BAT這樣的玩家�？梢钥隙ǖ氖�，隨著大批玩家的涌入，這個市場會愈發(fā)成熟，用戶對新技術(shù)的接受程度會大大提升。當一個虛擬人或者智能體說話時能達到和真人一樣的效果，我相信整個行業(yè)會迎來一個爆發(fā)。