您現(xiàn)在的位置：中國傳動網(wǎng) > 技術頻道 > 技術百科 > 基于深度圖的虛擬視圖合成技術綜述

基于深度圖的虛擬視圖合成技術綜述

時間：2018-05-08 16:35:59來源：中國傳動網(wǎng)

導語：?虛擬視圖合成技術是計算機視覺領域的一個重要研究方向，空洞填補是基于深度圖的虛擬視圖合成中的最關鍵問題，本文綜述了空洞填補的主要方法并評述比較它們的性能。

引言

虛擬視圖合成技術是從現(xiàn)有的圖像或視頻，生成原本不存在的圖像或視頻，是計算機視覺領域的一個重要研究課題，廣泛應用于2D到3D視頻轉(zhuǎn)化，自由視角電視，虛擬現(xiàn)實技術，3D視頻編解碼。而基于深度圖的虛擬視圖合成（depth-image-basedrendering，DIBR）是虛擬視圖合成最常用的方法，該技術通過現(xiàn)有的2D圖像/視頻和對應的深度圖把原始視角視頻映射到虛擬視角上，形成虛擬圖像/視頻。

早在2002年，ATTEST提出了把3D視頻分離成2D視頻和深度圖傳輸，在用戶端播放3D視頻時再通過DIBR合成兩路或多路的視頻。德國費勞恩霍夫通訊技術研究所（HHI）細化了DIBR算法以獲取更高的立體視頻質(zhì)量。俄羅斯莫斯科國立大學在虛擬視圖合成的研究已有10年，其成立的公司YUVsoft已有成熟的2D轉(zhuǎn)3D、立體轉(zhuǎn)多視角視頻、立體視頻增強的產(chǎn)品。日本的名古屋大學谷本研究室（NagoyaUniversityTanimotoLaboratory）除了參與開發(fā)虛擬視頻合成軟件（ViewSynthesisReferenceSoftware，VSRS），還提供有效的深度圖估計算法，并公開了其拍攝和制作的多視點視頻數(shù)據(jù)集，為學術界和工業(yè)界研究提供了參照基礎。

1空洞產(chǎn)生原理與填補難點

在基于深度圖的虛擬視圖合成技術中，原始視圖的像素通過深度值和原始攝像機參數(shù)反向投影到世界坐標，然后再通過虛擬攝像機參數(shù)把世界坐標投影變換到虛擬視圖的像平面，即3D扭曲（3Dwarping）。

在合成過程中，在原始視點中，有部分背景被前景遮擋著，而到了新的虛擬視點時，被前景遮擋的部分背景會暴露出來，這部分內(nèi)容是無法知曉的，從而產(chǎn)生空洞區(qū)域；另外，由于原始攝像機拍攝范圍有限，新視點的部分邊界區(qū)域無法在原始視點找到對應的映射區(qū)域，在經(jīng)過3D扭曲變化后，虛擬視點部分邊界也會存在較大的空洞。消除這些空洞區(qū)域是虛擬視點合成的一個重要步驟。

圖1產(chǎn)生空洞的實例

圖1展示了實際場景中產(chǎn)生空洞的例子，在“Ballet”序列中，把原始視點的2D圖像和對應的深度圖通過3D扭曲映射到了虛擬視點位置，由于前景（芭蕾舞者和男士）離攝像頭更近，他們把部分背景給遮擋了，這部分被遮擋的背景暴露在虛擬視點下，形成空洞區(qū)域（白色區(qū)域）。另外，由于虛擬視點位置更加偏左邊，導致虛擬視點的左邊邊界處存在較大的空洞。

空洞問題是虛擬視圖合成中最難解決的問題，原因如下：

（1）空洞區(qū)域所占面積比較大

空洞面積大小是由虛擬視圖與原始視圖之間的偏離程度決定的，它們的之間的距離越大，空洞面積越大，距離越小，空洞面積越小。通常情況下，即使它們的距離很小，非閉塞區(qū)域的空洞水平寬度也在10個像素以上。由于這些空洞較大，無法使用簡單的線性插值之類的方法填補。

（2）空洞里的真實內(nèi)容難以獲取

對于單幀圖像，空洞里的內(nèi)容無法知曉，只能通過空洞周圍的像素信息預測空洞部分的內(nèi)容，預測出來的不一定是真實的，特別是對于大的空洞，過多信息的缺失導致真實恢復空洞內(nèi)容變得十分困難。對于無法恢復真實值的區(qū)域，如何保證修復得到的結(jié)果看起來“合理”，也是一個關鍵難點。

（3）前景目標的干擾

根據(jù)空洞產(chǎn)生的原理，空洞需要使用背景內(nèi)容來填補。填補過程中如何很好地區(qū)分前景與背景本身就是一個難題，如果沒有把前景目標排除，填補出來的空洞通常會夾雜著前景物體的瑕疵。許多方法會采取一些措施加以限制，但仍然有部分區(qū)域，比如前景邊緣處，會存在一些瑕疵。

（4）虛擬視圖需保持連續(xù)性。

人眼對于視頻幀與幀之間的跳變十分敏感，過多的跳變會引起觀看者不舒適，因此需要保持視頻里空洞部分內(nèi)容具有連續(xù)性，幀與幀之間空洞的內(nèi)容應避免不一致、閃爍現(xiàn)象發(fā)生，保持幀與幀之間的內(nèi)容一致是一個關鍵難點。

2空洞填補方法研究現(xiàn)狀

虛擬視圖非閉塞區(qū)域的填充可以分為2類，第一類是預處理深度圖以減少非閉塞區(qū)域的產(chǎn)生，第二類是不預處理深度圖，利用視頻的時域或空域間關聯(lián)性獲取填充信息，以填充非閉塞區(qū)域。

2.1預處理深度圖方法

虛擬視圖里產(chǎn)生空洞主要是因為深度圖發(fā)生突變造成的，特別是前景和背景的交界處，深度值變化劇烈，導致空洞的產(chǎn)生。深度圖的預處理方法通過低通濾波器把這些突變過濾掉，使得深度圖的變化變得平緩，減少了虛擬視圖空洞。

深度圖的預處理過程可采用對稱或非對稱高斯低通濾波。對稱高斯低通濾波會產(chǎn)生嚴重失真，比如放大前景目標，即橡皮效應（rubbersheeteffect）。為了解決這一缺陷，可利用非對稱高斯低通濾波對深度圖的水平和垂直方向進行不同程度的平滑，水平方向比垂直方向平滑的程度更高。由于各向異性的性質(zhì)，非對稱高斯低通濾波在一定程度減少了空洞的產(chǎn)生。對稱或非對稱高斯低通濾波能夠在水平方向上平滑深度圖邊緣區(qū)域，但同時也會平滑非空洞區(qū)域，從而引起非空洞區(qū)域圖像質(zhì)量的下降。為了克服這個問題，邊緣依賴高斯濾波器（edge-dependentGaussianfilter）只在水平方向上平滑邊緣，自適應邊緣定向平滑濾波器（adaptiveedge-orientedsmoothingfilter）在預處理深度圖時不平滑非空洞區(qū)域。深度圖的預處理方法只能適用于攝像機之間基線較小的情況，很難應用于基線較大的情形，即無法填補較大的空洞。

基于深度圖平滑的方法，由于深度信息大部分被過濾掉，使得生成的虛擬視圖的3D效果大大減少，合成的3D視圖本來是想讓人體驗強烈的層次感的，平滑深度圖違背了原始意圖；深度圖的失真同樣導致生成的虛擬視圖產(chǎn)生失真，特別是前景目標變形了，垂直方向上的紋理錯位了。

2.2非預處理深度圖方法

另一類方法是不預處理深度圖，利用視頻時域或空域間的關聯(lián)性獲取填充信息。根據(jù)所利用的關聯(lián)性類別，可分為三類：基于空域方法，基于時域方法，基于時空域方法。

（1）基于空域方法

該方法利用圖像在幀內(nèi)空域上的相關性，根據(jù)空洞周圍的背景信息填補空洞。在空域上，視圖混合方法能夠利用多個視角信息填充大部分空洞區(qū)域。視圖混合方法需要多份攝像采集設備和傳輸帶寬，成本較高，所以單個視角的應用得到更廣泛的關注。分層視圖合成方法通過下采樣和上采樣的方法逐步填補虛擬視圖的空洞，這樣產(chǎn)生的視圖不會產(chǎn)生幾何失真，但當空洞區(qū)域比較大時會產(chǎn)生模糊效應。目前流行的不會產(chǎn)生模糊效應的空洞填補是基于圖像修復的方法。Criminisi等人提出了利用圖像修復（imageinpainting）和紋理合成相結(jié)合的方案，它首先計算空洞邊界像素的優(yōu)先程度，然后從非空洞區(qū)域搜索匹配塊，并把它填充到優(yōu)先級最高的區(qū)域。直接使用圖像修復方法可以有效的填充大的空洞，但填充的區(qū)域存在大量的前景瑕疵。為了減輕這個問題，許多圖像修復提升方法利用深度信息把前景排除于填充過程。Daribo和Saito把深度信息加入到Criminisi算法的圖像塊優(yōu)先級和距離的計算過程中，方差低的圖像塊被賦予高的優(yōu)先級，然后從深度值和顏色相似的區(qū)域選取最匹配的圖像塊。Gautier等人也拓展了Criminisi的算法，他們使用DiZenzo矩陣的結(jié)構(gòu)張量定義數(shù)據(jù)項（dataterm），也把深度信息加入到最優(yōu)圖像塊的計算模型中。文獻假設虛擬視圖的深度圖是提供的，這在實際中是不合理的。Ahn和Kim，K?ppel等人，Buyssens等人的方法同樣使用深度圖改進了填補的優(yōu)先級和圖像塊的選擇過程，而且這些方法不需要提供虛擬視圖的深度圖，而是在修復虛擬視圖空洞的過程中，同步修復虛擬視圖的深度圖。

（2）基于時域方法

在時域上，由于前景的運動，當前幀被前景遮擋的區(qū)域可能會在其它幀會變得可見，因此可以利用背景建模的方法恢復被遮擋區(qū)域的背景。平均背景模型先從場景中分割出背景，然后動態(tài)更新形成穩(wěn)定的背景，該方法只適合準靜止背景的場景。時域背景模型使用深度值方差在參考視頻前向和后向搜索未被遮擋的背景信息，中值濾波這部分信息形成參考背景，然而，合適的背景信息受限于相鄰時間段。文獻先預測非閉塞區(qū)域的深度值，然后采用深度值做門限分割前景和背景，并更新背景深度圖和背景視頻。在文獻中，利用混合高斯背景建模方法產(chǎn)生背景視頻，還加入前景深度關聯(lián)修正混合高斯背景建模，以去除旋轉(zhuǎn)的前景和靜止的前景，但當深度圖不準確時，F(xiàn)DC會前景瑕疵塊引入到背景里。為了減少計算量并提高對場景的適應性，文獻提出了在線的可切換高斯模型。文獻提出的基于背景建模的框架，先挖出前面，然后再進行背景建模，并采用了運動估計，能避免前景紋理瑕疵且適用于運動的背景。

（3）基于時空域方法

Wexler等人的視頻修復方法采用全局優(yōu)化方法，使得填充的內(nèi)容能夠在時域和空域內(nèi)都保持最佳連續(xù)性，能夠填補視頻序列中的大面積空洞區(qū)域。該方法由于采用了時空域圖像塊在時域和空域內(nèi)尋求最佳匹配，計算復雜度與時間和圖像成比例增長，即使文中介紹了采用由粗到細的優(yōu)化方法，但其運行時間依然太高，無法適用于實際場景。PatchMatch方法能大大降低塊匹配計算復雜度，得到近似的最佳結(jié)果。Newson等人把PatchMatch優(yōu)化方法拓展到了時空域,進一步優(yōu)化了視頻修復性能和速度。Huang等人提出了適合于運動背景的視頻修復方法。直接使用視頻修復方法在填充空洞區(qū)域時會引入大量的前景瑕疵。Choi等人同時考慮了時域和空域的關聯(lián)性，在原本只利用空域關聯(lián)信息的Criminisi修復算法中加入時間維度，同時利用幀內(nèi)、幀間關聯(lián)信息填補空洞，使得幀與幀之間更具連續(xù)性，減少了閃爍現(xiàn)象。Hsu等人，Kim等人相繼提出了基于能量函數(shù)最優(yōu)化的時空域空洞填補方法，也能夠保證修復視頻的時空域連續(xù)性。

3各類方法評述

空洞填補是虛擬視圖合成需要解決的關鍵問題，理想的空洞填補需要滿足以下特性：1）反映真實值；2）看起來自然直觀；3）保持時域的連續(xù)性；4）處理速度快。

對于基于深度圖預處理的方法，由于深度圖經(jīng)過了平滑，使得生成的視圖3D效果減少，也不適用于處理大面積空洞的場景。算法雖然簡單快速，但虛擬視圖嚴重失真。

圖像修復的方法能夠恢復未知區(qū)域的內(nèi)容，能夠用來填補大面積空洞，填補的結(jié)果不會引起模糊效應。但把圖像修復的方法直接用于填補非閉塞區(qū)域，可能會采集前景內(nèi)容來填充空洞區(qū)域，導致“前景穿透”現(xiàn)象。一些基于修復的提升方法利用非閉塞區(qū)域特性以更好的填補空洞，但這些方法的改進需要結(jié)合所采用的修復方法，對其它修復方法并不一定適用，不具有普遍性。而且修復所得到的內(nèi)容雖然看起來與周圍的內(nèi)容相似，但不一定是真實內(nèi)容。

基于背景建模方法可以恢復部分背景，卻無法恢復視頻中被靜止前景遮擋的那部分背景或者一些無法在原始視圖中找到對應映射區(qū)域的邊界部分；而且，傳統(tǒng)的背景建模方法會把一些前景紋理帶入到構(gòu)建的背景中，或者不適合攝像機運動的場景；文獻所提出的基于背景建模的框架能避免前景紋理瑕疵，但未考慮幀與幀之間的連續(xù)性問題，存在閃爍現(xiàn)象。

時空域填補法采用全局優(yōu)化，能夠選取最佳的時空圖像塊填補空洞，但每次最匹配時空圖像塊的選擇都是遍歷視頻中所有幀圖像，計算復雜度太高。

綜上所述，目前還沒有理想的方法能夠同時滿足反映真實值，保持連續(xù)性和速度快這幾點要求。

標簽：

分享到：

上一篇：如何選用稱重傳感器？

下一篇：一種基于對抗損失的超分辨圖...

中國傳動網(wǎng)版權(quán)與免責聲明：凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負版權(quán)法律責任。

相關資訊

技術熱點