Google發(fā)表最新將人工智慧應用在音頻解編碼器的研究,釋出端到端神經(jīng)解編碼器SoundStream,這是一個(gè)應用神經(jīng)網(wǎng)絡(luò ) 的音頻解編碼器,可以提供高音質(zhì)的音頻,并且支援清楚的語(yǔ)音、有雜音和回聲的語(yǔ)音,甚至是混雜音樂(lè )、語(yǔ)音和環(huán)境音的音頻,Google提到,SoundStream是第一個(gè)可以處理語(yǔ)音和音樂(lè )的神經(jīng)網(wǎng)絡(luò ) 解編碼器,可以在智慧型手機上即時(shí)執行。

音頻解編碼器用于有效率地壓縮音頻,以減少儲存和網(wǎng)絡(luò )頻寬需求,而理想的情況,音頻解編碼器的存在,應該要讓使用者無(wú)感,包括無(wú)法察覺(jué)解碼後的音頻,與原始音頻間存在差異,而且解編碼的過(guò)程,也不能產(chǎn)生可察覺(jué)的延遲。
市面上以及Google的各種影音服務(wù),大量使用了音頻解編碼器,像是Opus和增強型語(yǔ)音服務(wù)(Enhanced Voice Services,EVS)。Opus是一種多功能語(yǔ)音和音頻解編碼器,支援從6 kbps到510 kbps的位元率,已經(jīng)被Google用于視頻會(huì )議平臺Meet,還有串流媒體服務(wù)YouTube等應用程式中。而EVS則是3GPP標準化機構所開(kāi)發(fā),是針對行動(dòng)電話(huà)所開(kāi)發(fā)的解編碼器,和Opus相同,是能夠處理多種位元率的多功能解編碼器。
這兩種解編碼器雖然可以在中低位元率中表現出色,但是在極低位元率,像是小於等於3 kbps的情況,音質(zhì)就會(huì )急轉直下,Google提到,過(guò)去人類(lèi)利用專(zhuān)業(yè)知識,以及增加壓縮演算法的效率,來(lái)最佳化音頻的處理,但最近研究人員開(kāi)始使用機器學(xué)習來(lái)代替人工設計,以資料驅動(dòng)的方法學(xué)習解編碼音頻。
Google發(fā)布最新的端到端神經(jīng)解編碼器SoundStream,其主要技術(shù)便是使用神經(jīng)網(wǎng)絡(luò ) ,由編碼器、解碼器和量化器組合而成,所有這些都經(jīng)過(guò)端到端訓練。編碼器會(huì )將輸入的音頻,串流為編碼訊號,接著(zhù)使用量化器對其進(jìn)行壓縮,并且使用解碼器將信號轉換回音頻。
研究人員提到,SoundStream使用了神經(jīng)音頻合成領(lǐng)域中,目前最先進(jìn)的解決方案,透過(guò)訓練判別器(Discriminator),計算對抗性和重建損失函式的組合,讓重建的音頻聽(tīng)起來(lái)就像是未壓縮的原始音頻,進(jìn)而提供高品質(zhì)音頻輸出。
經(jīng)過(guò)訓練後,解碼器和編碼器可以分別在單獨的客戶(hù)端運作,以提高網(wǎng)絡(luò )傳輸高品質(zhì)音頻的效率。SoundStream處理音頻的效率非常好,特別是在低位元率的情況,研究人員解釋?zhuān)琒oundStream使用3 kbps位元率所提供的音頻品質(zhì),超過(guò)使用12 kbps位元率的Opus,以及9.6 kbps的EVS,位元率是這些解編碼器的三分之一到四分之一,這代表SoundStream可以使用更小的頻寬,提供類(lèi)似的音頻品質(zhì)。
在早前,Google發(fā)表了基于回歸網(wǎng)絡(luò ) 的Lyra音頻解編碼器,而與SoundStream比起來(lái),SoundStream仍然優(yōu)于Lyra當前的版本,研究人員也提到,在傳統音頻處理工作管線(xiàn)中,壓縮和增強使用不同模組進(jìn)行,但這樣的方法會(huì )增加系統延遲。而Google采取不同的策略,將壓縮和增強功能綜合在同一個(gè)模型中,能夠同時(shí)進(jìn)行壓縮和背景降噪,但又不增加延遲。
Google表示,SoundStream是將機器學(xué)習技術(shù),應用在音頻解編碼器中重要的一步,比目前最先進(jìn)的解編碼器Opus和EVS效果更好,而且只需要部署一個(gè)可擴展的模型。SoundStream會(huì )與下一版本的Lyra一起發(fā)布,藉由整合SoundStream與Lyra,開(kāi)發(fā)人員可以利用現有的Lyra API和工具,來(lái)提供更好的音質(zhì)。