
融云CTO 任杰
RTC的新挑戰
在RTC普及之前,高大上的視頻會(huì )議和電視電話(huà)會(huì )議,需要用到專(zhuān)網(wǎng)和專(zhuān)有硬件。大概在2012年前后,隨著(zhù)3G、4G網(wǎng)絡(luò )的建設和WiFi普及,RTC技術(shù)開(kāi)始進(jìn)入互聯(lián)網(wǎng)。不過(guò),任杰提到,各種手機、PC等設備都開(kāi)始進(jìn)入了互聯(lián)網(wǎng)的視頻通信領(lǐng)域,設備變得不可控。另外,從專(zhuān)有網(wǎng)絡(luò )變成了廣域網(wǎng)和互聯(lián)網(wǎng)以及無(wú)線(xiàn)網(wǎng)絡(luò )、4G網(wǎng)絡(luò ),網(wǎng)絡(luò )也變得不可控。
“PC不是為了通信這個(gè)場(chǎng)景進(jìn)行的設計,所以在回聲消除、降噪、視頻采集編碼層面都有不同的處理,有很多設備適配、算法的重新適配,大量細碎的功能要去做;手機在無(wú)線(xiàn)網(wǎng)絡(luò )下,丟包和帶寬會(huì )有瞬時(shí)變化,這些是新場(chǎng)景下面臨的新問(wèn)題,我們要重新去解決它,用新算法、新模式去處理它。”任杰說(shuō)。
2021年初,W3C(萬(wàn)維網(wǎng)聯(lián)盟)和IETF(互聯(lián)網(wǎng)工程任務(wù)組)宣布WebRTC成為官方標準,任杰認為WebRTC被標準化組織接納認可,但并不代表著(zhù)RTC的技術(shù)已經(jīng)成熟。“一個(gè)行業(yè)如果在持續爆發(fā)和持續高發(fā)展階段,我們很難說(shuō)它的技術(shù)是成熟的,因為場(chǎng)景越來(lái)越多,運用的設備技術(shù)也越來(lái)越多。音視頻編碼在不斷變化,新場(chǎng)景下的網(wǎng)絡(luò )對抗、機器學(xué)習、降噪技術(shù),都在持續井噴的發(fā)展過(guò)程中。”任杰如是說(shuō)。
新的技術(shù)、場(chǎng)景,也帶來(lái)了新的挑戰。任杰總結了四個(gè)融云在現階段面臨的RTC挑戰:
- 高清視頻:隨著(zhù)WiFi和5G等基礎設施的升級,用戶(hù)對音視頻質(zhì)量要求更高,融云會(huì )跟隨新的編碼標準去提供高質(zhì)量、高碼率、高幀率的視頻體驗。
- 語(yǔ)音還原度:傳統算法已經(jīng)不能滿(mǎn)足現有高質(zhì)量、高還原度的使用體驗與要求,RTC將與AI結合,研發(fā)降噪、提升智能分辨率、提高整體視覺(jué)清晰度的技術(shù),這是融云RTC技術(shù)研發(fā)的一大方向。
- 大量智能設備適配:除了安卓,將有大量實(shí)時(shí)操作系統RTOS設備進(jìn)入RTC領(lǐng)域,而這些設備有些配置較低,標準參差不齊,都需要RTC廠(chǎng)商做好適配,保證交互體驗。
- 全球節點(diǎn)部署,服務(wù)出海開(kāi)發(fā)者:互聯(lián)網(wǎng)市場(chǎng)的人口紅利在逐漸消失,出海開(kāi)發(fā)者的音視頻業(yè)務(wù)需求量很大,融云在做全球節點(diǎn)的部署,以及更好的調度算法,確保全球任何一個(gè)地方、任何一種方式接入,都有優(yōu)越的音視頻體驗。
RTC的三大創(chuàng )新場(chǎng)景
雖然疫情讓RTC極大普及,但是任杰認為,疫情本身并未創(chuàng )造新的RTC場(chǎng)景,而是推動(dòng)了音視頻在各類(lèi)場(chǎng)景和行業(yè)落地,加速了RTC發(fā)展進(jìn)程。
他舉例說(shuō)明,在線(xiàn)教育毫無(wú)疑問(wèn)是疫情中被推動(dòng)與廣泛落地的RTC場(chǎng)景。除了k12(kindergarten through twelfth grade,學(xué)前教育至高中教育的縮寫(xiě),代指基礎教育)的在線(xiàn)課程外,現在素質(zhì)教育也在向線(xiàn)上遷移。不過(guò)與基礎教育不同的是,素質(zhì)教育涉及經(jīng)驗的傳遞和指導,是更加個(gè)人化的過(guò)程,例如音樂(lè )、繪畫(huà),過(guò)程要求比較高。RTC技術(shù)與使用體驗感的提升,將有助于素質(zhì)教育的在線(xiàn)化進(jìn)程。
教育的另一個(gè)創(chuàng )新場(chǎng)景是在線(xiàn)考試,考試一直是嚴肅的事,過(guò)程控制更加嚴格。而因為疫情影響,考試也開(kāi)始線(xiàn)上化,例如考場(chǎng)設前置攝像頭、后置攝像頭,并全程錄像,方便監督和考試后抽查。
除了教育,任杰提到第二個(gè)RTC創(chuàng )新場(chǎng)景將是強互動(dòng)型與娛樂(lè )應用。電商直播、共享電影、線(xiàn)上拍賣(mài)、3D虛擬形象的語(yǔ)音社交、在線(xiàn)合唱等等,這些強互動(dòng)型應用將會(huì )越來(lái)越多,值得開(kāi)發(fā)者從產(chǎn)品層面發(fā)揮想象力。
第三個(gè)創(chuàng )新場(chǎng)景在行業(yè)應用中,疫情之后需要“無(wú)接觸服務(wù)”各個(gè)行業(yè),包括政府辦事、金融、保險、交通、海關(guān)等等領(lǐng)域,都在將辦事、審批服務(wù)過(guò)程轉向線(xiàn)上,這些也是RTC非常重要的新場(chǎng)景。
當AI遇見(jiàn)RTC
對于RTC和AI、5G等新技術(shù)的融合趨勢,任杰分別介紹了AI技術(shù)對音視頻領(lǐng)域四類(lèi)問(wèn)題的解決辦法。
- AI智能降噪。比如在線(xiàn)教育場(chǎng)景下,(老師/學(xué)生)敲擊鍵盤(pán)、倒水、咳嗽的聲音,過(guò)去的算法對這些非穩態(tài)噪音無(wú)能為力,而AI技術(shù)可以分辨的場(chǎng)景和分辨的噪聲更多,將幫助RTC在降噪方面有較大提升;
- AI超分處理。在相同帶寬下傳輸的視頻圖像,利用AI技術(shù)可以使其在解碼還原后較之前更加清晰;
利用AI技術(shù)把不同的視頻場(chǎng)景或者音頻場(chǎng)景分辨與分開(kāi)。對于靜態(tài)場(chǎng)景編碼、清晰度和幀率的控制,對于動(dòng)態(tài)場(chǎng)景下編碼和幀率的控制,用AI技術(shù)都可以將其區分開(kāi),做不同的處理;以及用AI技術(shù)重構帶寬估計的算法。
對于更遠的未來(lái),在全真互聯(lián)網(wǎng)時(shí)代,任杰表示,音視頻從采集到編碼、傳輸、解碼、渲染、互動(dòng)的整個(gè)過(guò)程,將是全真互聯(lián)網(wǎng)必須具備的一大塊能力,而RTC有望成為全真互聯(lián)網(wǎng)的基礎設施。