一種基于對抗損失的超分辨圖像重構(gòu)算法

文:北京大學深圳研究生院 深圳信息職業(yè)技術(shù)學院 深圳大學 孟凡陽 劉偉 楊火祥 梅晨2018年第二期

    現(xiàn)有的超分辨應(yīng)用中,深度學習已成為實現(xiàn)超分辨率重構(gòu)的一個主流。往往基于深度學習超分辨率生成的圖像給人帶來的主觀感知較差,主要原因是深度學習學習到的更多是圖像的低頻成分,而圖像的特征主要集中在高頻成分,怎樣利用圖像高頻成分的特征是急需解決的問題。

1.引言

    作為表達信息的一種載體,圖片在生活中被廣泛使用,特別是超分辨率圖片的表達信息能力較低分辨率圖片的強大很多。隨著圖像技術(shù)的發(fā)展,人們對超分辨率圖像的需求越來越大,在機器視覺方面,圖像超分辨率重構(gòu)的應(yīng)用甚為廣泛。從上個世紀70年代起,從低分辨率圖片生成超分辨率圖片的應(yīng)用就一直在被研究。隨著深度學習、硬件的飛速發(fā)展以及卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的實現(xiàn),在過去10年間從低分辨率圖像重構(gòu)超分辨率圖像得到了飛速的發(fā)展。

    超分辨應(yīng)用主要包括軍事領(lǐng)域、氣象遙感領(lǐng)域和醫(yī)學影像處理等等十分需要卻又難以獲取超分辨率圖像的場景。在軍事領(lǐng)域主要運用在高空觀察、夜間觀測以及戰(zhàn)場監(jiān)控等,在氣象遙感領(lǐng)常常受限于天氣、成像系統(tǒng),難以獲得超分辨圖像,在醫(yī)學影像方面需要大量的高清圖片來了解病人的身體狀況,如各種醫(yī)學成像、內(nèi)窺鏡圖像等都需要運用到超分辨重構(gòu)。

    超分辨率重構(gòu)的方法主要分為傳統(tǒng)法和基于深度學習的方法,傳統(tǒng)法主要包括插值法、非局部均值算法、凸集投影法以及基于機器學習的重構(gòu)方法等。隨著Chao等人將深度學習的方法運用到超分辨重構(gòu)上,提出了超分辨卷積神經(jīng)網(wǎng)絡(luò)(SuperResolutionConvolutionalNeruralNetwork,SRCNN),該方法取得了顯著超越幾乎所有傳統(tǒng)方法的效果,由此深度學習在超分辨重構(gòu)占領(lǐng)了統(tǒng)治地位。如圖1,同樣圖片通過雙三次插值法和SRCNN法重構(gòu)的效果完全不同。隨后,Ledig等人又提出了在深度學習中引入GAN模型以提高生成圖片的主觀感知,取得了不錯的效果。但是,其損失函數(shù)度量依然是基于MSE,而MSE損失度量并不能有效度量主觀感知能力。本文基于GAN模型的深度學習基礎(chǔ)上對損失函數(shù)度量改進使超分辨重構(gòu)圖像有更好的主觀感知。

圖1超分辨率重構(gòu)圖片

    在單圖象超象素重構(gòu)(SingleImageSuper-resolutionReconstruction,SISR)研究中,基于深度學習的方法逐漸成為主流,并取得了非常好的效果。在這些算法中,損失函數(shù)是最為關(guān)鍵和重要的,大部分利用的PSNR或者SSIM等度量方式,雖然這些方式能夠較好地得到結(jié)果,但是,由于是像素級的,造成最終得到的圖像雖然在PSNR等指標上較好,但是,其得到的高清重構(gòu)圖片的主觀感知較差。

    針對這一問題,文獻[3]提出SRGAN算法,該算法利用了GAN模型生成圖像的能力,通過引入對抗損失來提高SR圖像的主觀感知質(zhì)量。在對抗生成階段,利用的是預(yù)訓練以后的VGG19網(wǎng)絡(luò)提取的特征計算對應(yīng)的內(nèi)容和對抗的損失來替代PSNR度量,并取得了很好的主觀感覺質(zhì)量。

    但是,SRGAN在計算對應(yīng)的損失函數(shù)時,利用的是預(yù)訓練的VGG19模型,因此,一方面并沒有很好地利用生成網(wǎng)絡(luò)的生成能力,因為判決網(wǎng)絡(luò)并沒有根據(jù);另一方面,VGG19網(wǎng)絡(luò)雖然在目標分類和識別上,提取的特征具有很好的區(qū)分性,但是,在超分辨應(yīng)用中,其對應(yīng)的區(qū)分性并不是很好。

    超分辨生成網(wǎng)絡(luò)的損失函數(shù)一般采用最小均方誤差(MSE)度量,最新研究(文獻[1])表明MSE度量無法有效度量人們的主觀感知,雖然利用MSE度量作為損失度量能夠獲得好高的PSNR以及其他的質(zhì)量評價指標,但是對人的主觀感知并不是最好的。

    針對以上問題,本文提出了一種改進的損失函數(shù)度量的對抗網(wǎng)絡(luò)的超分辨生成模型,如圖2所示,在SRGAN模型基礎(chǔ)上對損失函數(shù)度量進行改進加入對抗網(wǎng)絡(luò),該網(wǎng)絡(luò)的目標通過兩個網(wǎng)絡(luò)損失度量之間的對抗,保證能夠生成超分辨率圖像的同時也有很好的主觀感知,通過全新的對抗模型,保證生成的圖像盡可能的利用圖像的高頻成分,進而保證最好的生成圖片的所有高、低頻部分,提高圖像的精確度以及主觀感知。

2.基于對抗損失的超分辨生成算法

2.1算法原理

算法原理如圖2所示:

圖2基于對抗損失的超分辨生成算法結(jié)構(gòu)圖

    如上圖所示,在原始的超分辨生成網(wǎng)絡(luò)的基礎(chǔ)上增加了權(quán)重計算網(wǎng)絡(luò),單純的超分辨網(wǎng)絡(luò)對原始圖片的低頻部分容易訓練生成,高頻部分難以生成。增加權(quán)重計算網(wǎng)絡(luò),讓高頻部分權(quán)重變大,平衡圖像中高、低頻成分的生成。

    損失函數(shù)的選擇對結(jié)果具有非常重要的影響,傳統(tǒng)的超分辨生成網(wǎng)絡(luò)損失函數(shù)度量選擇的是MSE度量;如下:

    MSE度量的實質(zhì)是累加圖像各個像素對應(yīng)的權(quán)重,而在實際的應(yīng)用中,由于圖片中大部分為平滑區(qū)域,這使得訓練學習的過程中,更多會偏向于圖像的平滑區(qū)域。

    在圖像中,大部分是平滑區(qū)域,只有少量是高頻的邊緣區(qū)域,但是邊緣區(qū)域?qū)θ藗兊闹饔^感知影響最大,因此,造成MSE算法一方面學習到的大部分屬于對圖像平滑區(qū)域的重構(gòu),而對于高頻區(qū)域的重構(gòu)沒那么理想。

    本文模型提出的雙層網(wǎng)絡(luò),改變了超分辨生成網(wǎng)絡(luò)中損失函數(shù)的度量,超分辨率生成網(wǎng)絡(luò)損失度量函數(shù)如下:

    公式中TH表示原始圖片對象的像素點,SH表示超分辨生成網(wǎng)絡(luò)重構(gòu)圖片的像素點,這里,可以看出,兩個網(wǎng)絡(luò)的權(quán)重都與權(quán)重計算網(wǎng)絡(luò)生成的權(quán)重w相關(guān),在前向傳播中,兩個網(wǎng)絡(luò)均進行計算,權(quán)重計算網(wǎng)絡(luò)生成的權(quán)重w的維度與超分表生成網(wǎng)絡(luò)生成的高清圖片S的維度相同,保證在計算損失函數(shù)度量的時候有相同的維度。在反向傳播的過程中,每次只對一個網(wǎng)絡(luò)權(quán)值更新,在一次前向傳播完成后,交替更新兩個網(wǎng)絡(luò)的參數(shù),即在公式中對應(yīng)lossa反向傳播的時候,wa不更新,lossb反向傳播的時候SH不更新。根據(jù)兩個網(wǎng)絡(luò)的損失對抗,增加原始圖片難以生成部分的權(quán)重。這里起主要作用的是兩個網(wǎng)絡(luò)損失度量函數(shù)中的wa和wb,更新超分辨網(wǎng)絡(luò)的權(quán)重,超分辨生成網(wǎng)絡(luò)中權(quán)重較大的部分會由于權(quán)重計算網(wǎng)絡(luò)的存在而減小,較小的權(quán)重會有所增加,經(jīng)過權(quán)重計算網(wǎng)絡(luò)后再次反向傳播,這樣不停的利用兩個網(wǎng)絡(luò)的對抗更新超分辨生成網(wǎng)絡(luò)的參數(shù),提升圖片較難生成部分的權(quán)重。

    當誤差損失度量降到所設(shè)值或者迭代次數(shù)達到后,網(wǎng)絡(luò)訓練完成,超分辨生成網(wǎng)絡(luò)參數(shù)更新完成。測試的過程,只使用超分辨生成網(wǎng)絡(luò)生成圖片,計算生成圖片和原始真實圖片的SSIM、PSNR值。

    通過以上兩個網(wǎng)絡(luò)的參數(shù)wa和wb的表達形式可以看出,即使w取最大值1時(歸一化處理),此時的網(wǎng)絡(luò)性能和沒有加損失對抗的超分辨生成網(wǎng)絡(luò)性能一樣,也就是說本文算法最差也能能達到超分辨生成網(wǎng)絡(luò)模型的效果。

3.算法實現(xiàn)步驟:

3.1權(quán)重計算網(wǎng)絡(luò)

圖3權(quán)重計算網(wǎng)絡(luò)結(jié)構(gòu)圖

    如圖3所示,權(quán)重計算網(wǎng)絡(luò)主要由三個卷積層和激活函數(shù)組成。網(wǎng)絡(luò)每經(jīng)過一個卷積層后跟隨一個激活層,卷積層1卷積核有64個,大小為5x5,卷積層2卷積核128個,大小為3x3,卷積層3卷積核3個,大小3x3,且每層卷積后圖片大小保持不變。激活函數(shù)前兩層選用的是LeakyReLU函數(shù),在最后一層卷積后激活函數(shù)選用了Tanh函數(shù),網(wǎng)絡(luò)采用Adam優(yōu)化,學習率隨著迭代次數(shù)的增加而變小??梢苑乐馆^小的梯度變?yōu)?。最后網(wǎng)絡(luò)輸出為權(quán)重w,權(quán)重計算網(wǎng)絡(luò)主要是通過產(chǎn)生的w對超分辨網(wǎng)絡(luò)進行調(diào)控,平衡超分辨網(wǎng)絡(luò)中的權(quán)重。

    訓練權(quán)重生成網(wǎng)絡(luò)時直接使用真實高清圖像,既能夠最大限度的利用好圖片特征,也能幫助網(wǎng)絡(luò)更快的收斂,生成w的維度與真實高清圖片維度相同。

3.2超分辨生成網(wǎng)絡(luò)

圖4超分辨生成網(wǎng)絡(luò)結(jié)構(gòu)圖

    如圖4所示,超分辨生成網(wǎng)絡(luò)也是由三個卷積層和對應(yīng)激活函數(shù)組成。卷積層1卷積核有192個,卷積核大小5x5,卷積層2卷積核有96個,卷積核大小為3*3,卷積層3卷積核的個數(shù)為Dim,卷積核大小為3x3,這里:

    其中upscale_factor是生成超分辨圖像放大的倍數(shù),因子3表示訓練圖片通道數(shù)為3。同樣激活層的函數(shù)與權(quán)重計算網(wǎng)絡(luò)相同,經(jīng)過卷幾層和激活層后最后經(jīng)過一個上采樣處理,生成與原始真實圖片對應(yīng)的矩陣維度相同的圖片。

    超分辨生成網(wǎng)絡(luò)的損失函數(shù)與權(quán)重計算網(wǎng)絡(luò)生成的權(quán)重w相關(guān),每次更新超分辨生成網(wǎng)絡(luò)權(quán)重時候,權(quán)重計算網(wǎng)絡(luò)權(quán)重暫時不更新。

    網(wǎng)絡(luò)中設(shè)。超分辨生成網(wǎng)絡(luò)的損失函數(shù)與權(quán)重生成網(wǎng)絡(luò)的損失函數(shù)訓練速度相當,因此,兩個網(wǎng)絡(luò)的學習率變化程度應(yīng)為相同,以免造成算法難以收斂。

4.實驗結(jié)果

    本文實驗訓練了1000低分辨率及與之對應(yīng)的超分辨率圖片,最后得到訓練好的模型,經(jīng)過測試后表現(xiàn)良好。訓練部分結(jié)果如圖4所示,以comic、baboon、lenna、zebra為例,進行全面測試與比較。

    權(quán)重生成網(wǎng)絡(luò)生成權(quán)重如圖5,代表該算法生成圖片的高頻信息部分,從圖可以看出,算法充分提取了高頻信息,lenna的高頻區(qū)域相對較少,其他三張圖高頻信息都較多,在生成超分辨圖片時,lenna更容易生成,生成圖片與原始圖片的PSNR值高,comic、baboon、zebra為了平衡主觀感知,與原始圖片的PSNR值相對較低。

圖5權(quán)重計算網(wǎng)絡(luò)生成權(quán)重圖

    從圖6、圖7的細節(jié)圖可以看出,SRGAN算法和本文算法在添加了對抗網(wǎng)絡(luò)后,生成圖片的清晰度都有明顯提升,對于高頻部分,如圖7的毛發(fā)部分,本文算法顯得更加細膩,相較于SRCNN在圖像高頻部分的生成有了加強,在圖像高頻部分的生成更為出色,主觀感知性能較好。

    模型測試結(jié)果與SRCNN模型相比情況如表1:

表1算法與SRCNN、SRGAN算法質(zhì)量分析對比

    主要考查了PSNR和SSIM兩個評價指標,從上表和圖可以看出,本文提出的基于對抗損失的超分辨生成算法在超分辨率重構(gòu)方面與深度學習模型SRCNN大部分性能都有了一定的提高,同時具有很好的主觀感知性能。

5.結(jié)論

    本文算法最大的改進是增加了對抗網(wǎng)絡(luò),對抗網(wǎng)絡(luò)的關(guān)鍵在于損失函數(shù)的選擇,本算法采用了層數(shù)較淺的網(wǎng)絡(luò),針對機器視覺,尤其是嵌入式設(shè)備而言,層數(shù)較淺的網(wǎng)絡(luò)能夠更好的實現(xiàn)。主要是都通過兩個損失函數(shù)度量的對抗增加了圖片高頻部分這一重要指標的生成能力,實現(xiàn)較好的主觀感知。本算法采用的權(quán)重計算網(wǎng)絡(luò)和超分辨生成網(wǎng)絡(luò)深度在采用更深的網(wǎng)絡(luò)時,相較于其他基于深度學習的深層網(wǎng)絡(luò)性能沒有明顯提升,后續(xù)工作,可以在選擇損失函數(shù)度量方面進行更深的改進,如損失函數(shù)權(quán)重的進一步優(yōu)化等。

 

中傳動網(wǎng)版權(quán)與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

伺服與運動控制

關(guān)注伺服與運動控制公眾號獲取更多資訊

直驅(qū)與傳動

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

中國傳動網(wǎng)

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服與運動控制

    2023年第1期