騰訊科技訊 CVPR 2018 圖像壓縮挑戰(zhàn)賽(CLIC)結(jié)果已經(jīng)出爐,騰訊音視頻實驗室和武漢大學陳震中教授聯(lián)合團隊于該項挑戰(zhàn)賽上取得壓縮性能第一。
CVPR是世界頂級的學術(shù)會議,自1983年第一次召開至今已經(jīng)有30多年歷史,在國際學術(shù)圈有很強的影響力,每年的CVPR都是計算機視覺領(lǐng)域的盛宴,全世界相關(guān)領(lǐng)域的頂尖學者、研究人員和企業(yè)都會積極參與。今年,CVPR新增了圖像壓縮workshop和挑戰(zhàn)賽議程,這場挑戰(zhàn)賽由Google、Twitter、Amazon等公司聯(lián)合贊助,是第一個由計算機視覺領(lǐng)域的會議發(fā)起的圖像壓縮挑戰(zhàn)賽,旨在將神經(jīng)網(wǎng)絡(luò)、深度學習等一些新的方式引入到圖像壓縮領(lǐng)域。
據(jù)大會官方介紹,此次挑戰(zhàn)賽分別從PSNR和主觀評價兩個方面去評估參賽團隊的表現(xiàn)。騰訊音視頻實驗室和武漢大學陳震中教授聯(lián)合團隊iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)指標上占據(jù)領(lǐng)先優(yōu)勢,在決賽數(shù)據(jù)集上比第二名高了0.13 dB,位列第一。在其他指標上,iipTiramisu 也位居前列。
峰值信噪比(PSNR)衡量的是壓縮前后兩張圖逐像素統(tǒng)計所產(chǎn)生的誤差,峰值信噪比越高,代表兩張圖誤差越小,也就意味著壓縮后的圖與原圖越接近、圖片質(zhì)量損失越小。
iipTiramisu在峰值信噪比上有顯著的優(yōu)勢,與業(yè)界最優(yōu)秀的開源圖像壓縮算法之一BPG相比:
Fig.1 The Rate-PSNR curve of different encoders. (bit-rate range 0.05-0.35 bpp)
信噪比不變的情況下,在性能優(yōu)先模式下iipTiramisu比BPG節(jié)省30.8%的碼率,速度優(yōu)先模式下比BPG節(jié)省27.9%的碼率;
在碼率都為0.14 bpp的情況下,iipTiramisu的峰值信噪比比BPG高1.58 dB,質(zhì)量損失率明顯減少。
據(jù)陳震中教授介紹,iipTiramisu團隊使用了基于傳統(tǒng)混合框架(hybrid image coder)融入深度學習的編碼模塊CNNMC以及CNN in-loop filter,以及基于不確定性的資源分配策略,最終可以在數(shù)據(jù)集壓縮性能上比BPG提升30%以上。
iipTiramisu由騰訊音視頻實驗室硅谷研發(fā)中心和武漢大學陳震中教授團隊聯(lián)合組成。 陳震中教授是武漢大學教授、博導,青年千人,主要從事計算機視覺、圖像視頻處理、人機交互、數(shù)據(jù)挖掘等方向的研究,近年來發(fā)表國際期刊會議論文120多篇,擁有50余項國際國內(nèi)標準(H.265/HEVC/AVS)提案、10余項國際國內(nèi)專利申請或授權(quán)。騰訊音視頻實驗室和陳震中教授團隊在圖像視頻處理、人工智能等領(lǐng)域展開了深入的合作。
圖像壓縮技術(shù)對于互聯(lián)網(wǎng)信息傳輸有至關(guān)重要的意義。一張未經(jīng)壓縮的 1200 萬像素的圖片就會占用 36MB 的存儲空間,而目前網(wǎng)絡(luò)上每天圖片傳輸、存儲數(shù)量數(shù)以億萬計,為了節(jié)省帶寬資源、存儲資源,減少服務(wù)器的壓力,高效的圖像壓縮算法必不可少。
騰訊音視頻實驗室在圖像壓縮領(lǐng)域有很深的積累,去年5月,該實驗室推出了一種基于AVS的自研圖片格式TPG,其壓縮效率也顯著領(lǐng)先于JPG/JPEG、PNG、GIF、WEBP等主流的圖片格式,處于世界領(lǐng)先水平。今年5月,TPG還因為在AVS標準制定和推廣中做出的突出貢獻,獲得了AVS工作組頒發(fā)的年度AVS產(chǎn)業(yè)技術(shù)創(chuàng)新獎。此次獲得CVPR 2018圖像壓縮挑戰(zhàn)賽壓縮效率第一,意味著騰訊音視頻實驗室在圖像壓縮領(lǐng)域又取得了一個長足的進步。