背景及問(wèn)題
目前,隨著(zhù)視頻會(huì )議及監控的迅速發(fā)展,視頻和音頻的應用技術(shù)已經(jīng)相對成熟。在實(shí)際應用中,音頻的交互處理仍然處于最基本和最核心的部分,人們對音頻的實(shí)時(shí)性要求更為苛刻,因此,在網(wǎng)絡(luò )帶寬允許的條件下,當不同地點(diǎn)的多個(gè)終端,需要進(jìn)行實(shí)時(shí)音頻交互時(shí),需要將多路音頻按照一定的策略進(jìn)行混合,并最終編碼發(fā)送給另外的終端。
多路音頻交互的核心問(wèn)題就是混音,而提供資源使用率相對低且音頻交互質(zhì)量更高的混音方法,以提升用戶(hù)的實(shí)際體驗效果,已成為本領(lǐng)域技術(shù)人員需要解決的技術(shù)難題。
統多路音頻混音方法分析
為解決此類(lèi)問(wèn)題,傳統的方法是采用多點(diǎn)控制單元(MCU) 將多路音頻信號混音為一路,如此可以有效降低網(wǎng)絡(luò )數據的傳輸量。MCU混音的方式是:根據信號線(xiàn)性疊加的原理,將多路音頻信號的采樣量化數據疊加。隨著(zhù)終端數量的增多,此種方式會(huì )導致MCU的運算負荷和上傳帶寬急劇增大,所以此方式只能適用在較小規模的會(huì )議系統中。
將混音處理都集中在一臺服務(wù)器來(lái)進(jìn)行,對服務(wù)器的上傳帶寬和CPU處理能力要求很高,由此衍生出了分布式處理方式,即由多個(gè)終端來(lái)進(jìn)行混音處理,而分布式的混音方法遇到的最主要問(wèn)題就是對終端的下載帶寬要求較高,同時(shí)也需要終端具有較高的多路音頻解碼和混音的處理能力,此外還需要終端配置良好的混音算法以獲得高質(zhì)量的混音效果。
目前,諸多的混音算法,用于處理4路以?xún)鹊囊纛l,還能獲得較好的混音效果,然而對于4路以上的音頻,混音后音質(zhì)會(huì )急劇下降,而且極易出現量化溢出等問(wèn)題(如圖1所示效果)。為了確保各路音頻的波形盡量能夠在混音后保持原始的形態(tài),以達到聲音真實(shí)還原和音質(zhì)更佳的效果,就必須解決數據疊加溢出的問(wèn)題。
常見(jiàn)的幾種解決溢出問(wèn)題的方式如下:
1.平均化時(shí)域線(xiàn)性疊加的方法;
此法最為簡(jiǎn)單,但是混音效果很不好,存在混音后各路的音頻衰減太多,音量偏小,不利于實(shí)時(shí)的溝通。
2.基于變換域的混音方法:
將各路音頻轉化為頻域并做覆蓋性差值,最后轉換回時(shí)域得到混音數據的方法。此類(lèi)方法雖然能很好解決溢出問(wèn)題,但實(shí)現四路以上的混音難度較高,不具備普遍應用的優(yōu)勢。
圖 1 現有直接疊加混音后的效果圖(6路音頻輸入)
華平多路音頻混音方法分析
華平提供的多路音頻幀的混音方法是一種基于時(shí)域信號疊加的自適應的多路音頻混合方法,能夠混合超過(guò)4路以上的音頻,實(shí)現方法:先將多路音頻幀中相應采樣點(diǎn)的值分別疊加以獲得至少一個(gè)樣點(diǎn)數據,且當有疊加后的結果超出預設范圍時(shí),對當前幀增益因子進(jìn)行調整,當一幀疊加完成后,將所得的當前幀增益因子與前一幀增益因子進(jìn)行比較,根據比較后的結果再次調整當前幀增益因子,接著(zhù),再根據再次調整后的當前幀增益因子、及音量強度的初始值計算當前幀的音量強度等級,并判斷音量強度等級是否等于預設值,如果是,則將疊加后獲得的各樣點(diǎn)數據形成的幀作為混音幀,如果否,則根據音量強度等級對各樣點(diǎn)數據進(jìn)行處理,以使處理后的各樣點(diǎn)數據都處于預設范圍內,并將處理后的各樣點(diǎn)數據所形成的幀作為混音幀。
本多路音頻幀的混音方法通過(guò)對線(xiàn)性疊加后的混音數據進(jìn)行溢出判斷,當溢出時(shí),對當前幀增益因子做一定的調整和計算,然后通過(guò)對混音后每幀數據進(jìn)行對比分析,根據對比前后幀的相關(guān)參數來(lái)不斷調整增益調節因子,并當混音出現溢出的時(shí)候自動(dòng)將當前幀做飽和處理,能夠避免混音后產(chǎn)生的溢出的噪音,并保持原始波形基本不變,音量大小基本不會(huì )受影響(如圖2所示效果)。
圖 2 華平多路音頻混音方法混音后效果圖(6路音頻輸入)
綜上所述,及對比圖1和圖2效果可知:現有直接疊加混音方法在超過(guò)6路的音頻輸入后,不能保持波形的原始形態(tài),且出現采樣過(guò)載和溢出等問(wèn)題,導致聲音不能完全再現其原始的效果。華平的混音方法在超過(guò)6路音頻輸入后,可以保持波形的原始形態(tài),完全解決了多路混音后存在的采樣疊加溢出的問(wèn)題,使溝通更加順暢。
華平多路音頻混音方法的其他特點(diǎn)及應用
- 混音出現溢出的時(shí)候能自動(dòng)將當前幀做飽和處理,能夠徹底避免混音產(chǎn)生的不同程度的噪音問(wèn)題。
- 實(shí)現方法相對簡(jiǎn)單,基于定點(diǎn)更易于應用在便攜設備和低功耗設備上。
- 可以用于集中式或分布式的各種環(huán)境中,在超過(guò)5路以上音頻混音的總體輸出效果,超過(guò)了其他方法。
相比現有的方法,在保持了音頻的波形質(zhì)量的同時(shí),可以混合更多路數的音頻作為混音輸出。完全可以應用在更大型的指揮監控系統中,實(shí)現更多點(diǎn)的音頻實(shí)時(shí)交互功能。