技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 面向復(fù)雜視覺大數(shù)據(jù)的深度學(xué)習(xí)方法

面向復(fù)雜視覺大數(shù)據(jù)的深度學(xué)習(xí)方法

時(shí)間:2017-07-27 15:19:38來源:中國科學(xué)院深圳先進(jìn)技術(shù)研究院

導(dǎo)語:?伴隨著電子信息技術(shù)的高速發(fā)展以及各類攝像頭的廣泛應(yīng)用,全球圖像視頻數(shù)據(jù)爆炸式增長,人類社會(huì)正在進(jìn)入視覺信息的大數(shù)據(jù)時(shí)代。海量的圖像和視頻在方便人們生產(chǎn)與生活的同時(shí),也對智能視覺技術(shù)提出了新的挑戰(zhàn)。

伴隨著電子信息技術(shù)的高速發(fā)展以及各類攝像頭的廣泛應(yīng)用,全球圖像視頻數(shù)據(jù)爆炸式增長,人類社會(huì)正在進(jìn)入視覺信息的大數(shù)據(jù)時(shí)代。海量的圖像和視頻在方便人們生產(chǎn)與生活的同時(shí),也對智能視覺技術(shù)提出了新的挑戰(zhàn)。

目前大多數(shù)視覺處理系統(tǒng)可以很好地采集、傳輸和存儲(chǔ)圖像視頻,但是缺乏對其圖像視頻內(nèi)容高效準(zhǔn)確的分析、識(shí)別和挖掘方法。首先,圖像視頻內(nèi)容復(fù)雜,包含場景多樣、物體種類繁多,這就要求處理方法對紛繁復(fù)雜的多種對象具有魯棒的處理能力;其次,非受控條件下,圖像和視頻的內(nèi)容受光照、姿態(tài)、遮擋等影響變化大,這就要求處理方法對復(fù)雜變化具有魯棒性;最后,圖像視頻數(shù)據(jù)量大,特征維度高,部分應(yīng)用需實(shí)時(shí)處理,對海量數(shù)據(jù)的計(jì)算效率有較高的要求。近年來深度學(xué)習(xí)方法的快速發(fā)展,為解決上述問題提供了有效的途徑。

圖1視覺大數(shù)據(jù)的特點(diǎn)、挑戰(zhàn)與核心問題

深度學(xué)習(xí)方法的前世今生

深度學(xué)習(xí)方法(Deeplearning)作為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的拓展,近年來在語音、圖像、自然語言等的語義認(rèn)知問題上取得巨大的進(jìn)展,為解決視覺大數(shù)據(jù)的表示和理解問題提供了通用的框架。深度學(xué)習(xí)利用包含多個(gè)隱層的深層神經(jīng)網(wǎng)絡(luò),解決需要高度抽象特征的人工智能任務(wù)。深度學(xué)習(xí)借鑒了人腦的多層(通常認(rèn)為是8-10層)神經(jīng)細(xì)胞處理結(jié)構(gòu),多層非線性結(jié)構(gòu)使得深度神經(jīng)網(wǎng)絡(luò)備對抽象語義特征的抽取能力和對復(fù)雜任務(wù)的建模能力。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)受限于過擬合(overfitting)問題,很難訓(xùn)練出泛化能力強(qiáng)的多層網(wǎng)絡(luò)模型。

深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別的特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。建立深度學(xué)習(xí)的一個(gè)動(dòng)機(jī)在于模擬人腦的分析處理機(jī)制來解釋數(shù)據(jù),人腦皮質(zhì)具有多層的結(jié)構(gòu),信息在人腦中逐層處理,逐步抽象。深度架構(gòu)看做一種“因子分解”,即從復(fù)雜的數(shù)據(jù)中抽取出可復(fù)用的表達(dá)本質(zhì)特性的特征。深度學(xué)習(xí)模型由于其多層非線性結(jié)構(gòu),具有強(qiáng)大的能力,特別適合大數(shù)據(jù)的學(xué)習(xí)(圖2)。這是由于傳統(tǒng)淺層模型由于能力有限,在訓(xùn)練數(shù)據(jù)量增大到一定程度時(shí)其能力往往飽和,無法充分利用大規(guī)模訓(xùn)練數(shù)據(jù)所包含的有效信息。與此對應(yīng),深度學(xué)習(xí)方法由于其強(qiáng)大的能力,可以較為充分的利用大規(guī)模數(shù)據(jù),從中提取有效的特征。

圖2深度學(xué)習(xí)方法與非深度學(xué)習(xí)方法在訓(xùn)練數(shù)據(jù)量增加時(shí)的性能對比

深度學(xué)習(xí)方法在視覺領(lǐng)域的進(jìn)展

目前,深度學(xué)習(xí)已經(jīng)在人工智能的多個(gè)應(yīng)用領(lǐng)域如圖像分類、語音識(shí)別、自然語言理解等取得了突破性的進(jìn)展。深度學(xué)習(xí)由于其優(yōu)異的效果,也引起了工業(yè)界的廣泛興趣,以谷歌、臉譜、微軟、百度等為代表的互聯(lián)網(wǎng)企業(yè)已經(jīng)成為深度學(xué)習(xí)技術(shù)創(chuàng)新的重要力量。在語音領(lǐng)域,深度學(xué)習(xí)用深信度網(wǎng)絡(luò)DBN替換聲學(xué)模型中的混合高斯模型(GaussianMixtureModel,GMM),獲得了相對錯(cuò)誤率顯著的降低(30%左右),并已經(jīng)成功的應(yīng)用于微軟、谷歌、訊飛等的語音識(shí)別引擎。在機(jī)器翻譯領(lǐng)域,神經(jīng)語言模型較傳統(tǒng)方法取得了更好的效果。2016年,由谷歌DeepMind開發(fā)的AlphaGo圍棋程序依靠深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的強(qiáng)大能力,在圍棋人機(jī)大戰(zhàn)中以3:1戰(zhàn)勝了韓國頂級(jí)棋手李世乭。

物體分類

在圖像領(lǐng)域,Krizhevsky等利用多層卷積神經(jīng)網(wǎng)絡(luò),在大規(guī)模圖像分類ImageNetLSVRC-2012競賽中(包含1千個(gè)類別,120萬圖像)取得了明顯高于傳統(tǒng)方法的結(jié)果,將Top5錯(cuò)誤率由26%大幅降低至15%,該神經(jīng)網(wǎng)絡(luò)有7層,包含約65萬個(gè)神經(jīng)節(jié)點(diǎn)和6千萬參數(shù)。目前卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為該領(lǐng)域的主流方法。在此基礎(chǔ)上,研究人員提出了VGGNet、GoogLeNet、殘差網(wǎng)絡(luò)ResidualNet等更深層的網(wǎng)絡(luò),并提升了深度學(xué)習(xí)方法在大規(guī)模圖像分類領(lǐng)域的性能。深度網(wǎng)絡(luò)還能準(zhǔn)確檢測出圖像物體的位置,也能預(yù)測例如人體部位手、頭、足的位置和姿態(tài)。

圖3AlexNet網(wǎng)絡(luò)結(jié)構(gòu)

人像分析

在人臉識(shí)別方面,深度神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別領(lǐng)域公認(rèn)困難的LFW數(shù)據(jù)庫上超過了人眼識(shí)別的準(zhǔn)確度。圖4給出了在人臉識(shí)別領(lǐng)域取得優(yōu)秀性能的DeepID網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)根據(jù)人臉結(jié)構(gòu)的特殊性,提出了使用局部共享卷積,提升了網(wǎng)絡(luò)對人臉圖像的分類能力。提出面向跨年齡人臉識(shí)別的隱因子卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將隱因子學(xué)習(xí)引入深度網(wǎng)絡(luò),將深度網(wǎng)絡(luò)中全連接層特征分解為身份和年齡兩個(gè)部分(圖5),為提升深度網(wǎng)絡(luò)對年齡變化的魯棒性提供了一條新途徑,實(shí)驗(yàn)表明該網(wǎng)絡(luò)在著名的LFW數(shù)據(jù)庫上取得了99%的正確率,超過了人眼在這一數(shù)據(jù)庫上的表現(xiàn)97%,并在Morph和CACD這兩個(gè)重要的跨年齡數(shù)據(jù)庫上取得了領(lǐng)先的識(shí)別率,分別為88.1%和98.5%,還首次提出面向深度網(wǎng)絡(luò)的中心損失函數(shù),增強(qiáng)深度特征學(xué)習(xí)中的聚類效果,實(shí)驗(yàn)表明該方法可以提升人臉識(shí)別深度網(wǎng)絡(luò)的性能,在MegaFace百萬級(jí)人像比對國際測試的FGNet任務(wù)中取得了良好的效果。

圖4DeepID人像分類網(wǎng)絡(luò)結(jié)構(gòu)[9]

圖5面向跨年齡人臉識(shí)別的隱因子卷積神經(jīng)網(wǎng)絡(luò)

場景識(shí)別

場景識(shí)別與理解是計(jì)算機(jī)視覺的一個(gè)基本問題。傳統(tǒng)的場景識(shí)別方法多依賴于SIFT、HOG、SURF等局部特征。近年來,卷積神經(jīng)網(wǎng)絡(luò)也被用于場景分類。早期的方法發(fā)現(xiàn)微調(diào)(Finetune)通過大規(guī)模物體數(shù)據(jù)庫Imagenet訓(xùn)練的網(wǎng)絡(luò),在場景分類中也有較好的效果。但與物體分類相比,場景類別更加抽象同一個(gè)場景類別內(nèi)圖像的內(nèi)容和布局可能包含復(fù)雜的變化。麻省理工學(xué)院的AI實(shí)驗(yàn)室推出PLACE大規(guī)模場景數(shù)據(jù)庫,推動(dòng)深度神經(jīng)網(wǎng)絡(luò)在大規(guī)模場景分類的應(yīng)用,使得研究人員可以直接利用場景數(shù)據(jù)而無需借助Imagenet訓(xùn)練場景分類的深度模型。許多在物體分類中表現(xiàn)優(yōu)異的網(wǎng)絡(luò)結(jié)構(gòu)如AlexNet、VGGNet、GoogLeNet、ResidualNet等也在場景分類中取得了良好的效果。研究表明,Dropout和多尺度數(shù)據(jù)增強(qiáng)等策略有助于深度網(wǎng)絡(luò)的訓(xùn)練,可以緩解網(wǎng)絡(luò)過擬合問題;Relaybackpropagation等方法可以提升場景分類深度網(wǎng)絡(luò)的性能。與傳統(tǒng)手工設(shè)計(jì)的特征相比,深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的場景特征表達(dá)能力豐富,語義性更強(qiáng),因此可以在識(shí)別任務(wù)中取得更好的效果。

圖6知識(shí)引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)

行為識(shí)別

行為識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的重要問題。近年來,研究人員逐步將深度神經(jīng)網(wǎng)絡(luò)引入視頻的分析與理解中,使其成為行為識(shí)別研究中的一個(gè)新的研究方向。Karpathy等提出一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN),通過不同的時(shí)序融合策略,實(shí)現(xiàn)對視頻中的行為識(shí)別。然而,此模型盡管利用海量數(shù)據(jù)(sports-1M)進(jìn)行預(yù)訓(xùn)練,行為識(shí)別的精準(zhǔn)性仍有待提高。

另一流行的方法是3DCNN,此類方法通過對標(biāo)準(zhǔn)2DCNN在時(shí)間軸上的擴(kuò)展,實(shí)現(xiàn)對視頻的時(shí)空建模。但是,巨大的訓(xùn)練復(fù)雜度需要海量數(shù)據(jù)的支撐或3D卷積核的分解。牛津大學(xué)提出一個(gè)雙流CNN框架以避免3DCNN的訓(xùn)練問題。通過外形流(Appearancestream)與運(yùn)動(dòng)流(MotionStream)CNN的獨(dú)立設(shè)計(jì),此框架在標(biāo)準(zhǔn)數(shù)據(jù)庫UCF101與HMDB51中實(shí)現(xiàn)了精準(zhǔn)的行為識(shí)別。然而,運(yùn)動(dòng)流CNN的輸入為疊加光流,這使得此框架只能捕捉住短時(shí)運(yùn)動(dòng)信息,而忽略視頻長時(shí)運(yùn)動(dòng)信息的理解。為進(jìn)一步改進(jìn)此結(jié)構(gòu)的識(shí)別精準(zhǔn)性,作者團(tuán)隊(duì)提出軌跡池化的深度描述子(Trajectory-pooledDeepDescriptors),該方法為融合深度模型與傳統(tǒng)軌跡特征提供了一種新機(jī)制,實(shí)驗(yàn)表明這種深度軌跡特征TDD較傳統(tǒng)手工設(shè)計(jì)的特征和傳統(tǒng)深度模型具有更強(qiáng)的表示能力和區(qū)分性,可明顯提高視頻分類的正確率。人們還開發(fā)了視頻關(guān)鍵域挖掘的深度模型,以及時(shí)間分割神經(jīng)網(wǎng)絡(luò),以提高此類框架的時(shí)空建模能力。另外,還開發(fā)了增強(qiáng)運(yùn)動(dòng)向量卷積神經(jīng)網(wǎng)絡(luò)EMV-CNN,利用運(yùn)動(dòng)向量替代需要大量運(yùn)算的光流,提速20倍以上。遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN),特別是長短時(shí)記憶模型(LongShort-TermMemory,LSTM)在各種序列建模任務(wù)中取得的成功,使得基于深度學(xué)習(xí)的行為識(shí)別方法逐步向序列建模方向發(fā)展。一種常見的訓(xùn)練方法是利用雙流CNN提取的特征作為LSTM的輸入進(jìn)行序列模型的訓(xùn)練。

圖7軌跡采樣的深度卷積視頻特征

除此之外,深度學(xué)習(xí)還在圖像恢復(fù)和超分辨率、圖像質(zhì)量評價(jià)、語義分割與解析、圖像內(nèi)容文本生成、醫(yī)學(xué)圖像分析等許多任務(wù)中取得了較傳統(tǒng)方法更好的結(jié)果,大大推動(dòng)了相互領(lǐng)域技術(shù)和方法的發(fā)展。

發(fā)展趨勢

深度學(xué)習(xí)方法雖然取得了重要的進(jìn)展,但在計(jì)算機(jī)視覺的許多應(yīng)用中仍然面臨巨大的挑戰(zhàn),這主要體現(xiàn)在以下幾個(gè)方面:

首先,目前的深度學(xué)習(xí)方法往往依賴大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練。但并非所有的視覺問題都有充足的訓(xùn)練樣本,如特定人或物體的檢索,罕見物種的識(shí)別、醫(yī)學(xué)圖像中的稀有病例等,訓(xùn)練數(shù)據(jù)可能非常稀少或者收集大量樣本的代價(jià)會(huì)很大。于此相對應(yīng),人的視覺系統(tǒng)僅需要少量樣本就可以識(shí)別類別,這很多程度是因?yàn)槿丝梢詮?fù)用在其他領(lǐng)域?qū)W習(xí)所得知識(shí)和經(jīng)驗(yàn)。近年來小數(shù)據(jù)樣本(Smalldataset)的學(xué)習(xí)越來越引起研究人員的關(guān)注,如何利用小數(shù)據(jù)樣本來進(jìn)行有效的深度學(xué)習(xí),是一個(gè)有待解決的挑戰(zhàn)性問題。

其次,深度卷積網(wǎng)絡(luò)采用誤差反向傳播算法進(jìn)行參數(shù)學(xué)習(xí),這就要求訓(xùn)練數(shù)據(jù)有明確和豐富的監(jiān)督信息。但在許多實(shí)際問題中,對圖像進(jìn)行詳細(xì)、精確的標(biāo)定極為耗時(shí)(如場景解析中的像素級(jí)標(biāo)簽、視頻中精細(xì)的時(shí)空標(biāo)定等);并且,許多訓(xùn)練數(shù)據(jù)中監(jiān)督信息缺失或監(jiān)督信息包含噪聲(如從互聯(lián)網(wǎng)中收集的照片)。如何利用弱監(jiān)督、噪聲監(jiān)督、非監(jiān)督統(tǒng)信息來訓(xùn)練深度網(wǎng)絡(luò),對利用大量標(biāo)定不完全的數(shù)據(jù)具有重要的實(shí)際意義。

最后,深度神經(jīng)網(wǎng)絡(luò)往往規(guī)模巨大、參數(shù)眾多。以AlexNet網(wǎng)絡(luò)為例,雖然輸入圖像已經(jīng)被縮小到224×224,但模型仍包含六千萬的參數(shù)。這使得深度神經(jīng)網(wǎng)絡(luò)較難應(yīng)用于計(jì)算和存儲(chǔ)資源受限的場合如移動(dòng)終端、嵌入式系統(tǒng)等。同時(shí),也使得人們很難把高分辨率的圖像直接作為深度網(wǎng)絡(luò)的輸入。如何對復(fù)雜深度網(wǎng)絡(luò)模型進(jìn)行壓縮和加速,降低運(yùn)算和存儲(chǔ)消耗,對解決深度學(xué)習(xí)方法資源受限的難題具有現(xiàn)實(shí)意義。

標(biāo)簽:

點(diǎn)贊

分享到:

上一篇:柔性臂振動(dòng)抑制的 新型控制策...

下一篇:雙飛輪移動(dòng)機(jī)器人非線性控制研究

中國傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡介|會(huì)員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

中國傳動(dòng)網(wǎng)-工業(yè)自動(dòng)化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 版權(quán)所有 粵ICP備 14004826號(hào) | 營業(yè)執(zhí)照證書 | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號(hào)