網(wǎng)絡(luò)視聽(tīng)音視頻高效編解碼技術(shù)研究與展望
- 來(lái)源:網(wǎng)絡(luò)視聽(tīng) smarty:if $article.tag?>
- 關(guān)鍵字:音視頻,解碼技術(shù),研究與展望 smarty:/if?>
- 發(fā)布時(shí)間:2023-07-30 19:28
文/ 國(guó)家廣播電視總局廣播電視科學(xué)研究院電視所所長(zhǎng) 郭曉強(qiáng)
進(jìn)入數(shù)字時(shí)代后,音視頻編碼的重要性更加凸顯,針對(duì)不同應(yīng)用場(chǎng)景的編解碼技術(shù)也在持續(xù)演進(jìn)和發(fā)展。以下從音視頻技術(shù)發(fā)展趨勢(shì)、2D視頻編碼技術(shù)、三維沉浸式視頻編碼技術(shù)和三維聲編碼技術(shù)四個(gè)方面來(lái)探討音視頻編解碼技術(shù)發(fā)展和應(yīng)用。
首先,回顧近年來(lái)音視頻技術(shù)的發(fā)展趨勢(shì)。從數(shù)據(jù)表示上,傳統(tǒng)的2D 視頻主要是紋理信息,3D 視頻增加了深度信息,而現(xiàn)在的沉浸式視頻則采用點(diǎn)云、特征等更加復(fù)雜的表現(xiàn)形式,能更加準(zhǔn)確地描述視頻場(chǎng)景;空間分辨率上,視頻從高清到4K 超高清再到現(xiàn)在的8K 超高清,空間分辨率不斷提升,對(duì)應(yīng)的清晰度也越來(lái)越高;時(shí)間分辨率上,也就是幀率,從高清的25 幀每秒,到超高清的50 幀每秒,未來(lái)也將朝著100 幀每秒和120 幀每秒演進(jìn),對(duì)于快速運(yùn)動(dòng)場(chǎng)景來(lái)說(shuō),幀率的提升會(huì)讓我們看到的畫(huà)面更加連續(xù)和流暢;視場(chǎng)角也在不斷擴(kuò)大,比如全景視頻的視場(chǎng)角是180°或者360°,能夠覆蓋人眼的觀看范圍;自由度體現(xiàn)了視頻體驗(yàn)的維度,早期的VR視頻以三自由度為主,現(xiàn)在也在不斷向六自由度發(fā)展,用戶可以隨意走動(dòng)來(lái)觀看不同角度的內(nèi)容。視頻技術(shù)發(fā)展的同時(shí),與之相伴的音頻技術(shù)也在不斷迭代升級(jí),從早期的單聲道、立體聲發(fā)展到環(huán)繞聲再到現(xiàn)在的三維聲,能讓觀眾獲得聲臨其境的體驗(yàn)??傮w來(lái)看,音視頻技術(shù)的發(fā)展可以帶來(lái)更高分辨率、更大視場(chǎng)角、更高自由度和更沉浸聲音,通過(guò)這些技術(shù)的融合演進(jìn),為用戶帶來(lái)更美好的視聽(tīng)感受。
其次,從視頻的形態(tài)上,可以分為2D 視頻和3D 視頻。2D 視頻在技術(shù)路線上比較明晰,從標(biāo)清到高清再發(fā)展到4K/8K 超高清。不同的視頻在分辨率、幀率、色域、量化精度、動(dòng)態(tài)范圍等方面都有可能存在差異,因此對(duì)應(yīng)的2D 視頻格式有很多種。特別在網(wǎng)絡(luò)視聽(tīng)領(lǐng)域,視頻可以通過(guò)手機(jī)、平板電腦多種終端進(jìn)行觀看,對(duì)應(yīng)的視頻格式和視頻編碼標(biāo)準(zhǔn)也多種多樣。國(guó)家廣播電視總局在2021 年發(fā)布的行業(yè)標(biāo)準(zhǔn)《網(wǎng)絡(luò)視聽(tīng)節(jié)目視頻格式命名及參數(shù)規(guī)范》中將網(wǎng)絡(luò)視聽(tīng)節(jié)目視頻格式分為9 種,并給出了每種視頻格式對(duì)應(yīng)的視頻參數(shù),保證在相同的視頻格式下視頻技術(shù)參數(shù)的一致性。
再次,來(lái)看3D 視頻技術(shù)的發(fā)展,十多年前的3D 電視頻道,當(dāng)時(shí)主要采用了幀兼容的3D 視頻,將左右眼兩路視頻下采樣后合成一路視頻,按照傳統(tǒng)的2D 視頻方式編碼傳輸后在終端恢復(fù)出兩路視頻,通過(guò)佩戴3D 眼鏡獲得立體效果。后續(xù)業(yè)界開(kāi)始研究裸眼3D 視頻,編碼傳輸2D 視頻和深度圖等信息,終端在傳統(tǒng)顯示器基礎(chǔ)上增加透鏡薄膜,用戶無(wú)需佩戴眼鏡即可獲得立體效果。目前,隨著VR/AR 等顯示技術(shù)的進(jìn)一步發(fā)展,三維沉浸式視頻技術(shù)成為當(dāng)前關(guān)注的熱點(diǎn)。為了推動(dòng)三維沉浸式視頻技術(shù)的規(guī)范化發(fā)展,國(guó)際ITU、MPEG 等標(biāo)準(zhǔn)組織都開(kāi)展了相關(guān)標(biāo)準(zhǔn)的制定工作。ITU 一開(kāi)始采用“先進(jìn)沉浸式音視頻”的說(shuō)法,后來(lái)又改為“先進(jìn)沉浸式感知媒體”,除了傳統(tǒng)的音視頻外,還包含圖片、觸覺(jué)等,相關(guān)的概念也在不斷的探討中。我們將這種能夠提供三維沉浸式效果的視頻統(tǒng)一稱(chēng)為“三維沉浸式視頻”。
以下分享幾種三維沉浸式視頻技術(shù)的應(yīng)用場(chǎng)景。谷歌的Starline 遠(yuǎn)程通話系統(tǒng)可以和遠(yuǎn)方的家人朋友實(shí)現(xiàn)“面對(duì)面”的交流;NHK 研發(fā)的AR 系統(tǒng)能夠支持大屏和小屏同步互動(dòng);芒果的虛擬主持人“小漾”采用數(shù)字人的方式實(shí)現(xiàn)和現(xiàn)場(chǎng)觀眾的逼真互動(dòng);華為研發(fā)的自由視角系統(tǒng)則可以讓用戶觀看到同一物體的不同角度。上面幾種應(yīng)用場(chǎng)景,呈現(xiàn)的就是三維沉浸式視頻,可以是360°全景視頻、多視角視頻或者容積視頻,這是目前視頻演進(jìn)的方向。為了適配視頻系統(tǒng)的發(fā)展,聲音也在朝著三維聲、沉浸聲的方向發(fā)展。通過(guò)音視頻技術(shù)的同步演進(jìn),未來(lái)視聽(tīng)體驗(yàn)將更加沉浸化。
無(wú)論是2D 視頻還是3D 視頻,為了便于存儲(chǔ)、交換和傳輸,都需要編碼。關(guān)于2D 視頻編碼標(biāo)準(zhǔn)發(fā)展路線圖,國(guó)際上主要是ITU 和MPEG 聯(lián)合制定的H.262、H.264、H.265、H.266 系列標(biāo)準(zhǔn),還有谷歌推出的AV1 標(biāo)準(zhǔn)。國(guó)內(nèi)主要是AVS 系列標(biāo)準(zhǔn),主要包括AVS+、AVS2 和AVS3 標(biāo)準(zhǔn)。整體來(lái)看,視頻編碼標(biāo)準(zhǔn)基本十年更新一代,每一代復(fù)雜度比上一代增加近10 倍,編碼效率提高約1 倍。這些視頻編碼標(biāo)準(zhǔn)都采用了基于混合塊劃分的混合編碼框架,隨著一代代標(biāo)準(zhǔn)的演進(jìn),圖像劃分從單一、固定劃分朝著多樣、靈活的劃分結(jié)構(gòu)發(fā)展,幀內(nèi)預(yù)測(cè)模式更多、預(yù)測(cè)方向更精細(xì),幀間預(yù)測(cè)運(yùn)動(dòng)模型更準(zhǔn)確、預(yù)測(cè)模式更豐富,再加上更加復(fù)雜的變換、濾波等技術(shù),使得編碼效率越來(lái)越高。未來(lái)2D 視頻編碼技術(shù)主要有兩大方向,一是對(duì)傳統(tǒng)編碼技術(shù)的進(jìn)一步探索,通過(guò)復(fù)雜度的提升來(lái)?yè)Q取編碼性能的提升;二是基于AI 的神經(jīng)網(wǎng)絡(luò)編碼,又可以細(xì)分為兩個(gè)方向,一個(gè)方向是研究基于神經(jīng)網(wǎng)絡(luò)的編碼工具,獲得比傳統(tǒng)編碼工具更優(yōu)的編碼性能,另外一個(gè)方向則是探索基于AI 的編碼框架,這個(gè)方向?qū)τ诰幋a領(lǐng)域是一個(gè)顛覆性的改變,難度也更大,相關(guān)的技術(shù)也在逐步探索中。
三維沉浸式視頻包含全景視頻、自由視點(diǎn)視頻、容積視頻等,對(duì)應(yīng)的編碼方式也有很多種,比如全景視頻編碼、多視點(diǎn)編碼、紋理+ 深度編碼、點(diǎn)云編碼、網(wǎng)格編碼等。在終端,可以渲染為2D 視頻在大屏上觀看,也可以根據(jù)頭部運(yùn)動(dòng),渲染出不同的畫(huà)面通過(guò)佩戴頭顯設(shè)備觀看,還能利用手機(jī)、平板電腦通過(guò)手指滑動(dòng)觀看不同視角的視頻。目前我們也正在探索適合“未來(lái)電視”發(fā)展的三維沉浸式視頻技術(shù)路線。在VR 視頻編碼方面,我們研制了基于FOV 的全景視頻編碼,這是全景視頻的低分辨率圖像和觀看視角對(duì)應(yīng)的高分辨部分圖像。這樣做的好處是,能夠在低時(shí)延情況下,隨著頭部的轉(zhuǎn)動(dòng),從低分辨率圖像過(guò)渡到高分辨率圖像,顯著節(jié)省帶寬。此外,多視點(diǎn)編碼、點(diǎn)云編碼等在業(yè)內(nèi)三維沉浸編碼領(lǐng)域也有應(yīng)用。
最后,再看看音頻編碼的最新發(fā)展情況。國(guó)家廣播電視總局發(fā)布了《三維聲編解碼及渲染》行業(yè)標(biāo)準(zhǔn),可以支持多音箱場(chǎng)景或者耳機(jī)場(chǎng)景。對(duì)于網(wǎng)絡(luò)視聽(tīng)?wèi)?yīng)用,可以在手機(jī)或平板電腦上的軟件進(jìn)行更新后,利用耳機(jī)即可體驗(yàn)到三維聲的效果。而對(duì)于家庭多音箱場(chǎng)景,需要更換機(jī)頂盒,相對(duì)來(lái)說(shuō)比較復(fù)雜。三維聲編解碼和渲染的框架,支持聲道編碼、對(duì)象編碼、HOA 編碼和元數(shù)據(jù)編碼。標(biāo)準(zhǔn)最大的創(chuàng)新在于首次采用了基于AI 的音頻編碼技術(shù),在MDCT 之后引入基于神經(jīng)網(wǎng)絡(luò)的變換和熵編碼模塊,顯著提升了編碼性能。
綜上所述, 隨著音視頻應(yīng)用場(chǎng)景的創(chuàng)新發(fā)展,對(duì)應(yīng)的音視頻編碼技術(shù)也在不斷演進(jìn),目標(biāo)是在保證編碼質(zhì)量的前提下,不斷提升編碼效率,節(jié)省傳輸帶寬和存儲(chǔ)空間。我們很期待,隨著和人工智能技術(shù)的不斷結(jié)合,在不久的未來(lái),音視頻編碼能有更大的突破。
