馬思偉:
北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授, 2005年博士畢業(yè)于中國科學(xué)院計算技術(shù)研究所。2005年8月至2007年8月在美國南加州大學(xué)進(jìn)行博士后研究,之后到北大工作至今。2013年獲國家自然科學(xué)基金委優(yōu)青項目資助,2015年入選中組部第二批青年拔尖人才計劃。主要研究方向為視頻編碼及處理,已發(fā)表論文200余篇,已獲授權發(fā)明專(zhuān)利40多項。擔任IEEE Transactions on Circuits and System for Video Technolgoy(TCSVT)、Journal of Visual Communication and Representation(JVCIR)期刊編委(AE)、中國圖象圖形學(xué)學(xué)會(huì )理事、AVS視頻組聯(lián)合組長(cháng)等。自2002年起,陸續參與組織AVS1、AVS+、AVS2一系列國家標準的制定,曾獲國家技術(shù)發(fā)明獎二等獎、國家科學(xué)技術(shù)進(jìn)步獎二等獎等獎勵。

首先我們回顧一下視頻編碼的歷史,視頻編碼起源于廣播電視,在很長(cháng)一段時(shí)間里視頻編解碼的變革主要推動(dòng)力是來(lái)自于廣播電視。當然,今天我們看互聯(lián)網(wǎng)的視頻編碼是速度越來(lái)越快,昨天在ICET2017年世界大會(huì )上,ICET的主席還說(shuō)到以前一個(gè)編碼是十年更新一版,但是現在從H.265最新進(jìn)展的來(lái)看,可能不到十年。
我們看到這個(gè)圖,大家可能在小的時(shí)候見(jiàn)到過(guò),電視上一個(gè)圓盤(pán),這是最主要的電視測試信號,這是1951年第一部數字電視和廣播。這個(gè)起源是脈沖調制編碼,相當于一個(gè)脈沖一個(gè)象素值,比較早的是用固定的比特,用8比特表示圖象電視信號編碼傳輸。這是在廣播電視領(lǐng)域。

到了我們計算機行業(yè),計算機誕生于1946年,但是在計算機上出現圖象是到了1957年, Kirsch是第一幅數字圖象的創(chuàng )造者,他用他的兒子做了第一幅數字圖像。2007年是這一幅圖象誕生50周年,現在是60周年了,原來(lái)的小baby現在也已經(jīng)是50、60歲的老頭了。今天的數字圖象,已經(jīng)到了4K甚至8K。

到了編碼,編碼的原理是因為視頻里面有很多冗余,包括連續兩幅圖象出現的時(shí)域冗余,還有人眼對高頻信息不敏感的感知冗余。基于這個(gè)原理,現在視頻編解碼框架從早期261開(kāi)始,一直到今天266快出來(lái)了,框架基本上沒(méi)有太多變化。
在這個(gè)框架里面,編碼技術(shù)可以主要分成三大塊。變換編碼,剛剛提到通過(guò)變換把高頻信息、空域、時(shí)域的冗余信息去掉。還有預測編碼,還有熵編碼。這是三大塊編碼的技術(shù)。

三大塊編碼技術(shù),從1950年左右開(kāi)始。1946年計算機誕生,1948年是相對信息論,50年代初開(kāi)始了數字化開(kāi)始視頻數字編碼時(shí)代。在早期由于計算能力限制,基本上是基于象素處理,用統計模型去處理。計算能力增強了之后現在有基于塊的處理。原來(lái)只能是基于圖象去做,后面才可以基于塊的處理,基于塊的運動(dòng)估計、運動(dòng)補償,像塊大小也可以變化,今天我們看到的H.264、265都是這樣。

再看當下的視頻編碼技術(shù)進(jìn)展。首先是空間的分辨率,從原來(lái)的小圖象到標清、到高清、再到超高清。第二,是時(shí)間分辨率,從原來(lái)的15幀,還有更高的20幀,到120。第三,采樣精度,現在的HDR高動(dòng)態(tài)范圍電視,至少是10比特了,但是10比特夠不夠,將來(lái)還會(huì )發(fā)展,也可能到了20比特。第四,視點(diǎn)數和視場(chǎng)范圍,這兩個(gè)是密切相關(guān)的。視頻傳的不是一路視頻,可能是兩路,可能是多路,這是視點(diǎn)數。視頻的范圍,看到的角度,越來(lái)越寬,這是視場(chǎng)范圍。第五,模型數據。模型數據是包括輪廓對象的刻劃。深度數據,還包括特征,對圖像內容、對象的認識。還有是點(diǎn)云,完全可以把對象重建出來(lái),遠景重現就依賴(lài)這項技術(shù)。

模型編碼,是標準之外的編碼。模型編碼這個(gè)概念也是比較久了,大概在80年代后期,一直到90年代中期的時(shí)候,曾經(jīng)有一個(gè)很大的呼聲,模型編碼是第二類(lèi)編碼,但是今天為止我們發(fā)現二代始終沒(méi)上臺,始終在用原來(lái)的二代。模型編碼的概念很光,可以把原基于象素的編碼都可以涵蓋,也是模型,只不過(guò)它的模型是基于信號模型。當然我們熟悉的是對象模型,這個(gè)概念很新,但是它也沒(méi)有用起來(lái),也是有很多問(wèn)題,在這里提到場(chǎng)景的解析,人和場(chǎng)地的解析。
更進(jìn)一步,包括對人,比如人的身體、臉可以建更高精度的模型。所以這對應表格上是在早期過(guò)去編碼歷史也有反應,包括基于人臉模型,甚至人臉哭和笑,只要是做好模型,將來(lái)傳很少的數據就可以還原。當然最后邊的發(fā)展最后還提到智能編碼,這是綜合了信號與視覺(jué)的模型,基于學(xué)習的視頻編碼。

再看看視頻編碼的發(fā)展趨勢。4K越來(lái)越流行。我們看到互聯(lián)網(wǎng)廣播,包括最近廣東也開(kāi)會(huì )提出下一步要提出4K電視廣播技術(shù),我們北京也提出2022年冬奧會(huì )是8K的試播。上圖可以對比一下,有測試8K,左上角的高清多么小。當然8K視頻不只是分辨率的問(wèn)題,還有配套的技術(shù),包括采樣精度、幀率和聲音。

這是10億象素的相機拍攝的一張照片,圖片一直放大,可以清楚的看到“太和殿”三個(gè)字。

剛剛說(shuō)的主要是分辨率的增長(cháng)。分辨率上去之后,并不是說(shuō)要傳一個(gè)更大的視頻,對于后端來(lái)說(shuō),意味著(zhù)可以提供更多的視頻應用形式,比如AR和VR。現在4K做VR的視覺(jué)效果還是有問(wèn)題的,還是需要更高的視頻帶寬和視頻精度去傳輸。模型編碼,對AR也有更大的提升作用。

如果看挑戰,第一是數據量的壓縮,依然比較嚴峻。8K、4K、HDR這樣的視頻,原始數據級是60Gbps。

第二個(gè)挑戰是,從壓縮到分析。剛剛講到視頻編碼的第一個(gè)推動(dòng)作用是廣播電視,看到更好的視覺(jué)質(zhì)量。但是到今天為止,世界上好多視頻,比如監控,并不是人要去看的,是計算機要去看的。我們沒(méi)有人去盯監控視頻,希望計算機來(lái)能夠完成分析。目前的壓縮是面向存儲和傳輸,降低帶寬占用,但是分析的支持相當弱。所以,很多視頻分析的研究是在壓縮完之后進(jìn)行。但是,隨著(zhù)現在前期分析識別技術(shù)越來(lái)越強,很多視頻分析開(kāi)始在視頻編碼時(shí)就進(jìn)行智能分析、智能編碼。

最新進(jìn)展我也快速過(guò)一下,一個(gè)是大家最關(guān)心的JEM266,高通推動(dòng)新一代的發(fā)展,最早是在MPEG會(huì )議提出,提出HM—KTA—1.0,到2020年制定新的標準。

JEM的性能有很大提升。客觀(guān)性測試上,編碼效率已經(jīng)提升了30%,復雜度增加了12倍,這對編碼實(shí)現還是很有壓力的。這是剛剛出來(lái)的雛形,后端肯定會(huì )在復雜度和性能之間的做更多優(yōu)化做更多技術(shù)。

最近已經(jīng)有幾家平臺基于JEM做了一些嘗試,可以看到他們的測試結果。在SDR、HDR、360video三個(gè)平臺,可以看到基本上原來(lái)的碼率下一半的時(shí)候可以達到同等的要求。這個(gè)對8K很有吸引力,

從固定精度運動(dòng)矢量到自適應精度運動(dòng)矢量,離預測中心比較近是,用高精度,比較遠時(shí)用低精度,以此來(lái)節省運動(dòng)矢量編碼的碼率。

第二個(gè)是關(guān)于劃分,劃分模式太多,大家在選擇起來(lái)比較頭疼。

再說(shuō)一下360,基本上是把投影拼接,拼接完了之后再壓縮編碼。在這個(gè)環(huán)節里面最重要的是投影數據,投影數據決定你要壓縮什么、丟失什么,對整個(gè)VR的體驗影響很多。這是很重要的方向。

從圖象這塊我們可以看到全景視頻投影,從立方體、八面體、二十面體、球體,JEM里面有十幾種投影方式。

對于質(zhì)量評價(jià)不一樣,當然這種質(zhì)量評價(jià)也是影響你編碼工具的設計,這兒有一個(gè)WSPSNR的概念因為它是從球面投到平面上去,有些數據丟了,如何計算WSPSNR很難,當然還有很多其他的方式。

剛剛講到JEM的技術(shù)。像光場(chǎng)這塊原來(lái)是聚焦一個(gè)圖象,現在是把不同方向的內容光線(xiàn)記錄下來(lái),一遍是利用相機陣列,或者微透鏡成像。光場(chǎng)圖像壓縮,JPEG比較積極,它是在2017年1月份發(fā)布光場(chǎng)圖象壓縮平臺。
在這里我們做了初步探索,對光場(chǎng)圖象里面有很多問(wèn)題,每一個(gè)小透鏡采集的光和圖象不一樣,中間有很多差異。弄完之后實(shí)際上每個(gè)濾波就是一個(gè)視頻,每一個(gè)小透鏡就是一個(gè)小圖象,這些差異需要處理。

再后來(lái)數據采集就是點(diǎn)云采集,把人臉模型變成動(dòng)畫(huà)場(chǎng)面。后面我們要把三維場(chǎng)景傳輸過(guò)去,這是下一步場(chǎng)景三維模型建模的技術(shù)發(fā)展方向。在這塊MPE也是比較迅速。

在今年4微分發(fā)布的CFP,大概10月份確立第一個(gè)驗證平臺,這個(gè)是類(lèi)似于A(yíng)R、VR可以把動(dòng)態(tài)模型用三維模型傳輸過(guò)去。

這是序列編碼框架,把編碼數據包裝到每一個(gè)盒子里面,當然對于點(diǎn)云的數據要復雜的多一些。

這是對比的效果圖,可以看到這是原始數據,一幀點(diǎn)云可能是136MB,我們看到壓縮一千倍、一萬(wàn)倍,信息會(huì )丟掉不少。

下面討論關(guān)于未來(lái),本來(lái)簡(jiǎn)史我們很熟悉,包括人類(lèi)簡(jiǎn)史、未來(lái)簡(jiǎn)史,包括赫拉利講到人類(lèi)簡(jiǎn)史說(shuō)三個(gè)革命,一個(gè)是認知革命,因為認知革命會(huì )制造工具,還有一個(gè)是農業(yè)革命可以養活更多的人,因為有個(gè)更多的人,才有人力去搞科學(xué)革命。
在視頻編碼方面,我把認知革命改成“采集革命”。視頻采集的深度、點(diǎn)云、以及壓縮感知,Nyquist采樣定理等對采集有很大影響。采集是編碼的源頭,采集會(huì )影響到編碼的框架設計。第二個(gè)計算革命,剛剛說(shuō)農業(yè)可以創(chuàng )造更多的糧產(chǎn),可以養活更多的人。在視頻編碼領(lǐng)域,能編碼,是因為計算能力的支持。計算的初期是基于像素、后來(lái)是基于塊,現在有更多更復雜的計算。早期是CPU,后來(lái)GPU,現在有NPU。這些計算能力很強大,但是視頻編碼目前還沒(méi)有利用上這些計算能力。目前正在探索,利用這些計算能力現在在探索基于神經(jīng)網(wǎng)絡(luò )的編碼,就是想利用這種更高效的計算能力。第三個(gè)是科學(xué)革命,我認為對于編碼來(lái)說(shuō)是認知革命。認識視頻里的內容,對內容有所識別。這里面包括簡(jiǎn)單的視覺(jué)特征,高級一點(diǎn)是深度學(xué)習,更高級是類(lèi)腦計算學(xué)習。這個(gè)過(guò)程是支持未來(lái)視頻編碼的方向。
這三者相輔相成,采集有新東西了,計算能力要跟上。計算越強會(huì )支持采集。同樣對于認知也是,計算能力更強也會(huì )加強認知。所以這三者是相互支撐的關(guān)系。

我們下面看采集革命,輸出的時(shí)候是離散的數字信號,這里面最有名的就是奈奎斯特采樣定理,是要過(guò)采樣。4K、8K那么大,采集到的數據有很多是冗余的,是為了重建。

但是這種采集,與人眼的處理差別是很大的。這里引入了壓縮感知,采樣時(shí)強調稀疏采樣。

這里面一個(gè)直接的應用,e是原圖象。采樣時(shí)通過(guò)稀疏采樣,只采樣20%的象素,采集到的是a,再基于稀疏圖象的原理還原成e。數據量大大降低。

信號采集在時(shí)間上和幅度上都是離散的,這就是離散信號。但是離散信號帶來(lái)的問(wèn)題就是數據量增加特別多。這都是過(guò)采樣的方式。

但是人腦的采集過(guò)程是,一開(kāi)始是光刺激發(fā)生,通過(guò)視網(wǎng)膜光電轉換和編碼,最后通過(guò)視網(wǎng)膜認出來(lái)。從圖像出來(lái)到人腦把這個(gè)圖像認出來(lái),需要經(jīng)過(guò)160ms。肯定今天的采集技術(shù)是比人眼采集頻率高很多,但是智能分析識別上人要比設備高很多。
人臉采集不一樣,上面是模擬信號,下面是數據信號,實(shí)際上我們人眼被稱(chēng)之為神經(jīng)脈沖編碼,當人看到一個(gè)東西如果沒(méi)有發(fā)生變化,是不發(fā)放神經(jīng)脈沖的,相當于不傳信號。所以,人腦的功耗是特別的。如果人腦的功耗也很高,就會(huì )把大腦燒掉。所以,人是靠很低功耗的計算,來(lái)實(shí)現分析識別。
這是一個(gè)很低功耗的圖象傳感器,區別于傳統的CMOS、CCD,做陣列刷新。這是一種事件驅動(dòng)的采集,對于事件的發(fā)生分析,精度要求很高效。

計算革命我也有一些思考。一個(gè)是我們知道前端計算,對于視頻編解碼都有專(zhuān)門(mén)的芯片,比如早期的C-Cube的處理器,VCD、DVD都使用這種處理器。最近有很強的ARM處理器可以支持4K,Tesla在使用的H.265編解碼器,可以處理8K。最新的寒武紀深度學(xué)習神經(jīng)網(wǎng)絡(luò )處理器。

這里我們還是從變換說(shuō)起,變換是視頻編碼很重要的模塊,最早的變化是基于8x8 DCT。DCT的好處是當信號相關(guān)性很強,相關(guān)系數達到0.95的時(shí)候,DCT就是最優(yōu)的變換。但是實(shí)際信號差別很大,如果圖像一旦有邊緣,DCT就變得不高效,因為相關(guān)性降低了。這是就提出了基于方向的變化,排列一下,分別進(jìn)行相關(guān)性變換。基于這種原理,擴展出了DST,離散正弦變化。到了正弦變化之后還不算完,在H.265發(fā)展過(guò)程開(kāi)始通過(guò)尋來(lái)找KLT最優(yōu)變換。在H.266提出了更新的做法,原來(lái)是離線(xiàn)訓練,H.266中使用在線(xiàn)訓練,通過(guò)前面一兩幀的數據在線(xiàn)訓練。

1987年,神經(jīng)網(wǎng)絡(luò )編碼提出。最近,Google開(kāi)始引發(fā)關(guān)于神經(jīng)網(wǎng)絡(luò )編碼的革命。這么多年的發(fā)展,神經(jīng)網(wǎng)絡(luò )編碼的原理,基本上還是想通的。

上文講的是神經(jīng)網(wǎng)絡(luò )可以進(jìn)行更多的計算,那么這里給一個(gè)例子,進(jìn)行這么多計算,作用在哪?左邊是縮倍率示意圖,右邊是編碼復雜度示意圖,我們關(guān)注最后面兩個(gè),一個(gè)是JPEG和Residual(基于神經(jīng)網(wǎng)絡(luò )的編碼)的GRU和CPU。壓縮倍率,JPEG和Residual的都是15倍。在計算復雜度上,如果把JPEG當做是1,那么Residual在GPU上進(jìn)行的編碼復雜度是3200,在CPU上的是26萬(wàn)。

原來(lái)做濾波是做統計,求一個(gè)最優(yōu)的濾波系數。這也可以用神經(jīng)網(wǎng)絡(luò )代替,基于神經(jīng)網(wǎng)絡(luò )做濾波,不訓練,直接通過(guò)神經(jīng)網(wǎng)絡(luò )就能計算的特別好。

前文是基于空域的濾波。還有基于時(shí)域的,像和幀之間的相關(guān)性,也可以用上,通過(guò)訓練改善優(yōu)化,都能獲得性能的提升……

神經(jīng)網(wǎng)絡(luò )也可以做生成預測。

最后一塊是認知革命。認知革命是講前端處理都是基于塊,我們看到的塊都是像素值、是數。但是人腦處理的時(shí)候從邊緣到輪廓到對象,差別很大。如果更高效、更智能的編碼,應該是基于特征的編碼,才可以做更高效的分析處理。

近期就是基于特征的編碼(CDVA),最新的2018年的標準。視頻監控是一個(gè)典型應用。上百萬(wàn)路視頻,如果是傳統的編碼,數據量達到1Tbps,如果是CDVA,則數據量降到10Gbps,上萬(wàn)倍壓縮比。傳很少的數據達到分析識別的目的。


紋理特征聯(lián)合編碼,現在已經(jīng)有一些方案了。一路傳視頻、一路傳特征,來(lái)輔助分析識別。
總結:
4K正在普 ,8K是未來(lái)趨勢,下一代標準值得關(guān)注
采集革命進(jìn)一步擴展了視覺(jué)數據的維度,豐富了視覺(jué)數據編碼的多樣性
采集、計算和認知技術(shù)的融合,使得智能編碼成為可能
訪(fǎng)問(wèn):http://www.itdks.com/dakashuo/playback/1191,點(diǎn)擊視頻回放-立即報名,即可查看大會(huì )內容回放。
訪(fǎng)問(wèn):https://pan.baidu.com/s/1kVrDrp1,獲取大會(huì )PPT。
