計算機(jī)視覺的自動駕駛算法研究綜述

時間:2018-02-11

來源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語:近年來,隨著人工智能技術(shù)的迅速發(fā)展,傳統(tǒng)汽車行業(yè)與信息技術(shù)結(jié)合,在汽車自動駕駛技術(shù)方面的研究取得了長足進(jìn)步,業(yè)內(nèi)很多大公司都在此領(lǐng)域投入巨資進(jìn)行研發(fā)

近年來,隨著人工智能技術(shù)的迅速發(fā)展,傳統(tǒng)汽車行業(yè)與信息技術(shù)結(jié)合,在汽車自動駕駛技術(shù)方面的研究取得了長足進(jìn)步,業(yè)內(nèi)很多大公司都在此領(lǐng)域投入巨資進(jìn)行研發(fā),如國外的谷歌、豐田,國內(nèi)的百度、比亞迪等公司都推出了自動駕駛汽車,且實驗結(jié)果令人滿意:

谷歌的自動駕駛汽車已經(jīng)安全行駛超過14萬英里;

豐田則宣布旗下自動駕駛系統(tǒng)將于2020正式量產(chǎn);

百度在2015年底宣布,其自動駕駛汽車計劃三年商用五年量產(chǎn),比亞迪已與百度深化合作,共同研發(fā)無人駕駛汽車。

可以預(yù)見,在不遠(yuǎn)的將來,隨著技術(shù)不斷發(fā)展完善,自動駕駛技術(shù)將進(jìn)入實用階段,普及到千家萬戶,人們可以自由出行而無需擔(dān)心人為駕駛事故,如無證駕駛、超速、疲勞駕駛、酒駕等人為引起的交通事故。因此,自動駕駛技術(shù)有著廣闊的應(yīng)用前景。

1自動駕駛技術(shù)

自動駕駛技術(shù)分為基于傳統(tǒng)特征和基于深度學(xué)習(xí)駕駛技術(shù)。

在現(xiàn)有的基于傳統(tǒng)特征的自動駕駛中,目標(biāo)識別是核心任務(wù)之一,其包括道路及道路邊沿識別、車道線檢測、車輛識別、車輛類型識別、非機(jī)動車識別、行人識別、交通標(biāo)志識別、障礙物識別與避讓等等。目標(biāo)識別系統(tǒng)利用計算機(jī)視覺觀測交通環(huán)境,從實時視頻信號中自動識別出目標(biāo),為實時自動駕駛,如啟動、停止、轉(zhuǎn)向、加速和減速等操作提供判別依據(jù)。

由于實際路況極度復(fù)雜,基于傳統(tǒng)目標(biāo)檢測的輔助駕駛技術(shù)性能難以得到大幅提升,現(xiàn)有的自動駕駛技術(shù),一般依賴于先進(jìn)的雷達(dá)系統(tǒng)來彌補(bǔ),顯著增加了系統(tǒng)實施的成本。隨著技術(shù)的發(fā)展,采用卷積神經(jīng)網(wǎng)(ConvolutionalNeuralNetworks,CNN)可以直接學(xué)習(xí)和感知路面和道路上的車輛,經(jīng)過一段時間正確駕駛過程,便能學(xué)習(xí)和感知實際道路情況下的相關(guān)駕駛知能,無需再通過感知具體的路況和各種目標(biāo),大幅度提升了輔助駕駛算法的性能。

2基于傳統(tǒng)特征的自動駕駛技術(shù)

自動駕駛技術(shù)中傳統(tǒng)的特征指的是人工提取的特征,如HOG(梯度直方圖)特征、SIFF(尺度不變特征變換)特征和CSS(顏色自相似)等特征。

目前,主流自動駕駛技術(shù)都基于視頻分析。交通場景下捕捉到的視頻序列中包含各種不同視頻目標(biāo),如行人、汽車、路面、障礙物、背景中的各種物體等,需要在測試圖像中標(biāo)識出感興趣類別的目標(biāo)對象,用來提供給車輛控制系統(tǒng)作為決策依據(jù)。

特征的檢測與表示是關(guān)鍵步驟,涉及到如何編碼描述目標(biāo)圖像信息的問題,比較理想的特征表示方法要能適應(yīng)各種干擾因素的影響,比如尺度、外觀、遮擋、復(fù)雜背景等情況。

2.1道路與車道識別

道路與車道識別是自動駕駛技術(shù)的基礎(chǔ)內(nèi)容,如Caltechlanedetector中論述。常見的道路的識別算法基于圖像特征進(jìn)行計算,其分析圖像中表示車道線或道路邊界等的灰度,顏色,紋理等特征,通過神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、聚類分析和區(qū)域生長等方法便可以分割出路面區(qū)域。這類方法對道路曲率的變化有很好的魯棒性。

最近基于條件隨機(jī)場的道路檢測方法取得了重要的進(jìn)展。由于道路及邊沿的種類繁多,紛雜的車輛以及路邊雜物的遮擋,樹木以及建筑物的陰影干擾等,使得最基本的道路檢測存在需要進(jìn)一步提升的空間。

2.2車輛檢測技術(shù)

車輛檢測技術(shù)為自動駕駛領(lǐng)域研究的熱點之一。前向車輛碰撞預(yù)警系統(tǒng)是一種有效降低主動事故發(fā)生率的技術(shù),其廣泛采用車輛定位的方法實現(xiàn),可以利用車輛自身的圖像特征,如陰影、對稱性、邊緣等,例如常用的底部陰影以及車輛的兩個縱向邊緣構(gòu)成的U型特征等,快速定位車輛感興趣的區(qū)域,再利用多目標(biāo)跟蹤算法對檢測的車輛進(jìn)行跟蹤。

2.3行人檢測及防碰撞系統(tǒng)

以「行人保護(hù)」為目的的行人檢測及防碰撞系統(tǒng)也成為自動駕駛領(lǐng)域的研究熱點。目前統(tǒng)計學(xué)習(xí)方法在行人檢測中應(yīng)用最為廣泛,特征提取和分類定位是基于統(tǒng)計學(xué)習(xí)方法的兩個關(guān)鍵問題。

基于統(tǒng)計學(xué)習(xí)的行人檢測主要包含基于生成式模型(局部)的檢測方法和基于特征分類(整體)的檢測算法:

基于生成式模型的檢測方法通常采用局部特征或者肢體模型來描述局部屬性,結(jié)合局部特征的空間結(jié)構(gòu)特性或分布模型進(jìn)行分類。

基于特征分類的檢測方法目的是找到一種能夠很好地描述行人特征的方法。通過提取行人的灰度、邊緣、紋理、顏色等信息,根據(jù)大量的樣本構(gòu)建行人檢測分類器,從樣本集中學(xué)習(xí)人體的不同變化,把視頻圖像中的行人目標(biāo)從背景中分割出來并精確定位。

2005年Dalal提出梯度直方圖(HistogramofOrientedGradient,HOG)是一個最基本的特征,具有非常強(qiáng)的魯棒性,其他很多行人檢測的算法都是在使用HOG的基礎(chǔ)上,加上其它特征,如尺度不變特征轉(zhuǎn)換(Scale-invariantFeatureTransform,SIFT)、局部二值模式(LocalBinaryPattern,LBP)、顏色自相似(ColorSelf—Similarity,CSS)、多通道等等。

Cheng等人觀察到物體都有閉合邊緣,基于HOG特征提出了一種二進(jìn)制歸一化梯度特征(BING)來預(yù)測顯著性窗口的方法,該方法運行速度非常快,可以達(dá)到300fps。趙勇等在HOG的基礎(chǔ)上提出了一個具有較好的尺度不變特征eHOG,將HOG中梯度直方圖中每個bin的特征重構(gòu)成一個位平面,再計算其HOG特征。實驗表明,在計算量沒有大幅度增加的情況下,正確率比原HOG高3~6個百分點。HOG特征存在一個問題,即整個HOG特征被拉長成一個矢量,弱化了原來在二維平面局部空間的梯度特征之間的局部關(guān)聯(lián)特性。

張永軍等人提出的I-HOG采用多尺度的特征提取算法和構(gòu)建梯度直方圖之間的關(guān)聯(lián),增強(qiáng)了行人邊緣信息在二維平面空間的局部關(guān)聯(lián),I-HOG特征相較于原HOG特征較大幅度的提高了檢測率。SIFT是一種檢測局部特征的算法,該算法通過求一幅圖中的特征點及其有關(guān)尺度和方向的描述得到特征并進(jìn)行圖像特征點匹配,用于檢索或者標(biāo)準(zhǔn)圖庫類別的識別時,其不僅具有尺度不變性,即使改變旋轉(zhuǎn)角度,圖像亮度或拍攝視角也能夠得到非常好的檢測效果。

3基于深度學(xué)習(xí)的自動駕駛技術(shù)

基于視頻分析的目標(biāo)檢測與識別技術(shù)經(jīng)歷了從傳統(tǒng)特征,如:HOG、SIFT、Bagofvisualwords和Fisher核矢量到深度學(xué)習(xí)的過渡過程。

HOG得到的描述保持圖像的幾何和光學(xué)轉(zhuǎn)化不變性。Fisher核矢量能統(tǒng)一各類特征的維度、壓縮時精度損失很小等,這些傳統(tǒng)直觀的特征,在目前階段取得了很好的使用效果。但由于目標(biāo)的種類繁多,變化較大,以及視角的變化等等,使得傳統(tǒng)基于特征的目標(biāo)檢測遇到了很難超越的瓶頸。

近年來,深度學(xué)習(xí)的興起,使得大量多類多狀態(tài)下目標(biāo)檢測與識別的性能可以大幅度提升到擬人水平,甚至在許多方面超越人類。深度學(xué)習(xí)特征為從大量訓(xùn)練數(shù)據(jù)中自動學(xué)習(xí)到的特征,較傳統(tǒng)特征相比,更能刻畫目標(biāo)的本質(zhì)。

深度學(xué)習(xí)有多個常用模型框架,如自動編碼器、稀疏編碼、限制波爾茲曼機(jī)、深信度網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。其中基于卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionNeuralNetwork,CNN)的深度學(xué)習(xí)模型是最常用的模型和研究熱點之一。

20世紀(jì)60年代,Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時發(fā)現(xiàn)其獨特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,繼而提出了CNN。K.Fukushima在1980年提出的新識別機(jī)是CNN的第一個實現(xiàn)網(wǎng)絡(luò)。隨后,目標(biāo)檢測通過掃描窗來學(xué)習(xí)并進(jìn)行檢測,大大提高了多類檢測目標(biāo)識別的效率。最具有代表性的是深度學(xué)習(xí)鼻祖Hinton的工作,作者訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來對LSVRC-2010和LSVRC-2012的120萬張圖像進(jìn)行1000種以上的分類,獲得當(dāng)時最高的檢測率。這種基于掃描窗的方法主要缺點是:掃描窗的大小和位置組合太多,導(dǎo)致計算量過大而難以實現(xiàn)。

CNN思路近年來經(jīng)過不斷改進(jìn),其精確度和計算效率得到極大提升。2014年Girshick等人提出了R-CNNL,其思想為將每個圖片分為約2000個區(qū)域輸入CNN訓(xùn)練,從預(yù)選框中通過CNN提取出固定長度的特征,最后通過特定類別的支持向量機(jī)(SVM)來分類。由于需將每一個候選區(qū)域分別送人到Alexnet中進(jìn)行檢測,導(dǎo)致檢測速度很慢,因此何覬名等人提出SPPnet。SPPnet改變以往使用剪裁一幅圖片使其尺寸滿足Alexnet輸入要求,而是使用任意尺寸圖片作為輸入。

Fast-RCNN在SPPnet的基礎(chǔ)上,使用顯著性檢測方法在原始圖像上提取出預(yù)選區(qū)域,并將每一個區(qū)域坐標(biāo)映射到特定圖上,在進(jìn)行目標(biāo)檢測時,使用ROI池化層選取映射的坐標(biāo)區(qū)域,部分卷積圖像送人分類器,無需對每一個預(yù)選區(qū)進(jìn)行卷積運算,大大提高了檢測速度。

2015年Ren等提出Faster-RCNN,在之前的基礎(chǔ)上使用一個RPN網(wǎng)絡(luò),使用卷積運算一次得到卷積特征圖像,F(xiàn)aster-RCNN是對Fast-RCNN的進(jìn)一步加速。在2015年12月的ICCV國際會議上,鄒文斌博士在R-CNN的基礎(chǔ)上,提出了基于RCNN的多層次結(jié)構(gòu)顯著性目標(biāo)檢測方法,在MSRA-B,PASCAL-1500和SOD三個數(shù)據(jù)集上的實驗表明,其檢測率達(dá)到當(dāng)時業(yè)界最高水平。在該會議上,Kontschieder舊引等提出了在CNN各層輸出的特征基礎(chǔ)上,采用隨機(jī)森林,在公開的數(shù)據(jù)集MNIST和Imagenet上,獲得了較高的檢測率。

CNN和多通道處理結(jié)合的方法在圖像識別上也有不錯的效果:

2011年P(guān)ierreSermanet等人提出多尺度CNN算法,將原始圖像和其子取樣的卷積結(jié)果通過線性分類器分類,其GTSRB數(shù)據(jù)集上精確度達(dá)到98.97%。

2012年DanCiresan等人提出使用多通道深度神經(jīng)網(wǎng)絡(luò)的方法識別交通信號。該方法將訓(xùn)練圖片同時輸入N個深度神經(jīng)網(wǎng)同時訓(xùn)練,進(jìn)行預(yù)測時,計算輸入圖像的N個深度神經(jīng)網(wǎng)預(yù)測結(jié)果的平均值作為最終結(jié)果,其預(yù)測結(jié)果準(zhǔn)確率達(dá)到99.46%,超過了人工識別精度。

2014年KarenSimonyan釗等人將連續(xù)視頻分為空間流和時間流,使用不同的CNN處理同一段視頻的物體特征和行為特征,并將二者結(jié)合進(jìn)行行為判別,也極大地提升了識別的精確度。

在輔助駕駛和自動駕駛中,需要識別和估計的目標(biāo)繁多,包括前方機(jī)動車、非機(jī)動車、行人、道路標(biāo)識、道路本身、車道線等等,導(dǎo)致基于目標(biāo)監(jiān)測與識別的學(xué)習(xí)算法變得十分復(fù)雜。在自動駕駛與機(jī)器人導(dǎo)航中,另一種方法直接從視頻圖像中學(xué)習(xí)前進(jìn)方向的角度來尋找路徑和繞開障礙物,以及YannLecun的工作,即通過端到端學(xué)習(xí),以實現(xiàn)非道路上的障礙物避讓,使用6層的CNN學(xué)習(xí)人的駕駛行為,可以在穿越視野內(nèi)區(qū)域的同時學(xué)習(xí)低層和高層特征,消除人工的校準(zhǔn)、矯正、參數(shù)調(diào)整等等,該系統(tǒng)主要的優(yōu)點是對各種不同環(huán)境下的非道路環(huán)境有非常好的魯棒性。

以上工作均為通過深度學(xué)習(xí)直接將圖像映射到行駛的角度下進(jìn)行的。在這一思想的影響下,在ICCV2015上,普林斯頓大學(xué)提出了深度駕駛算法,其算法架構(gòu)如圖1所示,通過深度神經(jīng)網(wǎng)絡(luò)直接感知駕駛操控(drivingaffordance),不僅大大簡化了算法的復(fù)雜度,而且大大提高了自動駕駛的魯棒性和智能化水平,是自動駕駛技術(shù)上的一個重大突破。

深度駕駛的技術(shù),通過采用CNN來直接學(xué)習(xí)和感知一段時間正確駕駛過程以后,就能學(xué)習(xí)和感知到實際道路情況下的相關(guān)駕駛智能,無需通過感知具體的路況和各種目標(biāo),大幅度提升了輔助駕駛算法的性能。

4總結(jié)與展望

自動駕駛技術(shù)是未來汽車智能化的研究熱點之一。從綜述的文章中可以得出,基于傳統(tǒng)目標(biāo)檢測最有效HOG特征、SIFT特征、CSS等特征的自動駕駛技術(shù)已經(jīng)取得了不錯成績。

由于實際路況極度復(fù)雜,基于傳統(tǒng)目標(biāo)檢測的輔助駕駛技術(shù)性能難以得到大幅度提升,現(xiàn)有的自動駕駛技術(shù),一般依賴于先進(jìn)的雷達(dá)系統(tǒng),顯著增加了系統(tǒng)實施的成本。深度駕駛技術(shù)能同時感知道路和道路上的各類目標(biāo),為自動駕駛系統(tǒng)提供駕駛邏輯支持,是未來自動駕駛技術(shù)研究的方向之一。

在具體的輔助駕駛算法中,如果對路況和目標(biāo)缺乏整體感知,則很難達(dá)到實用化和商用化水平。吸取傳統(tǒng)自動駕駛技術(shù)中的精華,借鑒深度學(xué)習(xí)研究的最新成果,整合傳統(tǒng)特征和深度學(xué)習(xí)特征,以提供更多信息,不失為一個較好的解決方法。設(shè)計自動駕駛技術(shù)的新算法,進(jìn)一步提升深度駕駛的擬人化和實用化水平,是一條值得去繼續(xù)探索的道路。

中傳動網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點贊 0
取消 0