互聯(lián)網(wǎng)傳播的絕大部分內(nèi)容都是視頻數(shù)據(jù)。這些視頻都是什么內(nèi)容?是否包含危害公共安全的內(nèi)容或者不良信息?能否設(shè)計一個系統(tǒng),對實時傳輸中的視頻流與事先收集的樣本庫進行實時比對,把完全一致的和近似的視頻內(nèi)容挑選出來?實現(xiàn)這個目的的技術(shù)即為視頻檢索。視頻檢索是一項基礎(chǔ)技術(shù),是機器視覺的一個分支。很多應(yīng)用依賴于視頻檢索,如視頻拷貝檢測、視頻內(nèi)容分類、輿情監(jiān)測和公共安全等。
高性能檢索的難度
視頻傳播和存儲的形式是經(jīng)過編碼壓縮的數(shù)據(jù),即碼流。當(dāng)前普遍使用的壓縮編解碼標(biāo)準(zhǔn)有H.264和 H.265,具有很好的壓縮效果和較快的解碼速率。視頻碼流只要經(jīng)過一次解碼再編碼,就會有很大變化,這是因為編碼過程有信號失真。如果對視頻進行剪輯、編輯、渲染、加字幕、改變分辨率等處理,處理后的視頻,即使內(nèi)容基本相同,其碼流也會有很大區(qū)別。因此無法根據(jù)碼流判斷視頻內(nèi)容。
對視頻的任何改變就會引起再編碼,比如改變分辨率、加字幕、加LOGO等。視頻可以分解為圖像幀。視頻檢索的問題轉(zhuǎn)化為圖像幀比對。
一個高清視頻(1080P)用H.264編碼后的碼流約為6 Mbps,解碼后的數(shù)據(jù)量為720 Mbps。一臺高配置的服務(wù)器,用解碼軟件可以同時解碼8路1080P視頻。提取圖像幀特征的常用算法是SIFT和SURF。提取的速度一般為2~4路視頻的實時計算。特征檢索的性能與樣本庫的容量有關(guān)。傳統(tǒng)的K-D樹進行大規(guī)模高維數(shù)據(jù)的比對,速度非常慢,可能達不到2路視頻的實時比對。如果要對超過8路高清視頻進行大規(guī)模樣本庫的檢索,視頻解碼、特征提取和特征檢索都有很大挑戰(zhàn)。
恒揚數(shù)據(jù)研發(fā)的高性能視頻檢索(HVR,High-performance Video Retrieval)系統(tǒng)根據(jù)性能不同有兩種規(guī)格(HVR-384和HVR-192)。HVR采用恒揚數(shù)據(jù)開發(fā)的專用硬件,具有業(yè)界領(lǐng)先水平。本產(chǎn)品集成了專用SOC硬件芯片實現(xiàn)視頻解碼,采用最新卷積神經(jīng)網(wǎng)絡(luò)CNN技術(shù)實現(xiàn)了圖像特征計算,運用基于圖論的大規(guī)模高維度數(shù)據(jù)搜索算法實現(xiàn)了億級圖像毫秒級搜索的功能,是一個軟件和專用硬件結(jié)合的高性能解決方案,引領(lǐng)高性能視頻和圖片檢索的最新技術(shù)方向。