SoundStream是第一個神經(jīng)音頻解編碼器，模型能夠同時壓縮音頻并降低噪音，可在低位元率運(yùn)作良好

　　Google發(fā)表最新將人工智慧應(yīng)用在音頻解編碼器的研究，釋出端到端神經(jīng)解編碼器SoundStream，這是一個應(yīng)用神經(jīng)網(wǎng)絡(luò) 的音頻解編碼器，可以提供高音質(zhì)的音頻，并且支援清楚的語音、有雜音和回聲的語音，甚至是混雜音樂、語音和環(huán)境音的音頻，Google提到，SoundStream是第一個可以處理語音和音樂的神經(jīng)網(wǎng)絡(luò) 解編碼器，可以在智慧型手機(jī)上即時執(zhí)行。

　　音頻解編碼器用于有效率地壓縮音頻，以減少儲存和網(wǎng)絡(luò)頻寬需求，而理想的情況，音頻解編碼器的存在，應(yīng)該要讓使用者無感，包括無法察覺解碼後的音頻，與原始音頻間存在差異，而且解編碼的過程，也不能產(chǎn)生可察覺的延遲。

　　市面上以及Google的各種影音服務(wù)，大量使用了音頻解編碼器，像是Opus和增強(qiáng)型語音服務(wù)（Enhanced Voice Services，EVS）。Opus是一種多功能語音和音頻解編碼器，支援從6 kbps到510 kbps的位元率，已經(jīng)被Google用于視頻會議平臺Meet，還有串流媒體服務(wù)YouTube等應(yīng)用程式中。而EVS則是3GPP標(biāo)準(zhǔn)化機(jī)構(gòu)所開發(fā)，是針對行動電話所開發(fā)的解編碼器，和Opus相同，是能夠處理多種位元率的多功能解編碼器。

　　這兩種解編碼器雖然可以在中低位元率中表現(xiàn)出色，但是在極低位元率，像是小於等於3 kbps的情況，音質(zhì)就會急轉(zhuǎn)直下，Google提到，過去人類利用專業(yè)知識，以及增加壓縮演算法的效率，來最佳化音頻的處理，但最近研究人員開始使用機(jī)器學(xué)習(xí)來代替人工設(shè)計，以資料驅(qū)動的方法學(xué)習(xí)解編碼音頻。

　　Google發(fā)布最新的端到端神經(jīng)解編碼器SoundStream，其主要技術(shù)便是使用神經(jīng)網(wǎng)絡(luò) ，由編碼器、解碼器和量化器組合而成，所有這些都經(jīng)過端到端訓(xùn)練。編碼器會將輸入的音頻，串流為編碼訊號，接著使用量化器對其進(jìn)行壓縮，并且使用解碼器將信號轉(zhuǎn)換回音頻。

　　研究人員提到，SoundStream使用了神經(jīng)音頻合成領(lǐng)域中，目前最先進(jìn)的解決方案，透過訓(xùn)練判別器（Discriminator），計算對抗性和重建損失函式的組合，讓重建的音頻聽起來就像是未壓縮的原始音頻，進(jìn)而提供高品質(zhì)音頻輸出。

　　經(jīng)過訓(xùn)練後，解碼器和編碼器可以分別在單獨(dú)的客戶端運(yùn)作，以提高網(wǎng)絡(luò)傳輸高品質(zhì)音頻的效率。SoundStream處理音頻的效率非常好，特別是在低位元率的情況，研究人員解釋，SoundStream使用3 kbps位元率所提供的音頻品質(zhì)，超過使用12 kbps位元率的Opus，以及9.6 kbps的EVS，位元率是這些解編碼器的三分之一到四分之一，這代表SoundStream可以使用更小的頻寬，提供類似的音頻品質(zhì)。

　　在早前，Google發(fā)表了基于回歸網(wǎng)絡(luò) 的Lyra音頻解編碼器，而與SoundStream比起來，SoundStream仍然優(yōu)于Lyra當(dāng)前的版本，研究人員也提到，在傳統(tǒng)音頻處理工作管線中，壓縮和增強(qiáng)使用不同模組進(jìn)行，但這樣的方法會增加系統(tǒng)延遲。而Google采取不同的策略，將壓縮和增強(qiáng)功能綜合在同一個模型中，能夠同時進(jìn)行壓縮和背景降噪，但又不增加延遲。

　　Google表示，SoundStream是將機(jī)器學(xué)習(xí)技術(shù)，應(yīng)用在音頻解編碼器中重要的一步，比目前最先進(jìn)的解編碼器Opus和EVS效果更好，而且只需要部署一個可擴(kuò)展的模型。SoundStream會與下一版本的Lyra一起發(fā)布，藉由整合SoundStream與Lyra，開發(fā)人員可以利用現(xiàn)有的Lyra API和工具，來提供更好的音質(zhì)。