微軟:要把視覺(jué)識(shí)別推進(jìn)到智能終端里

時(shí)間:2016-01-26

來(lái)源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語(yǔ):從目前微軟等公司的研究進(jìn)展看,人類離可商用的通用型實(shí)時(shí)計(jì)算機(jī)視覺(jué)已經(jīng)逼近拐點(diǎn)。

在幾乎所有的科幻電影里,人工智能機(jī)器人都能像人類那樣,用計(jì)算機(jī)視覺(jué)動(dòng)態(tài)的識(shí)別周圍環(huán)境、人與物?!缎乔虼髴?zhàn)7》里的新型機(jī)器人BB-8,還能通過(guò)頭部的配合,制造出各種萌萌的眼神和表情。

然而與人類數(shù)千年的文化相比,計(jì)算機(jī)科學(xué)本身也不過(guò)幾十年的歷史。人眼可以輕易的識(shí)別各種2D和3D圖像,對(duì)于計(jì)算機(jī)來(lái)說(shuō)只是無(wú)數(shù)像素點(diǎn)的集合。如何讓計(jì)算機(jī)分析這些捕獲的像素點(diǎn),“識(shí)別”出來(lái)各種物體,一直是計(jì)算機(jī)視覺(jué)想要攻克的難關(guān)。

微軟研究院作為全球最大的企業(yè)研究院之一,長(zhǎng)期以來(lái)也與其它科技機(jī)構(gòu)一樣,試圖打開(kāi)機(jī)器之眼。2015年底,微軟在全球頂級(jí)的計(jì)算機(jī)視覺(jué)挑戰(zhàn)賽ImageNet中拿下了全部三項(xiàng)主要項(xiàng)目的冠軍。與此同時(shí),在硬件端微軟還開(kāi)發(fā)出了針對(duì)智能終端的視覺(jué)識(shí)別模型壓縮算法。

可以說(shuō),現(xiàn)在離計(jì)算機(jī)視覺(jué)的全面突破,只有一步之遙。

百層卷積神經(jīng)網(wǎng)絡(luò)

ImageNet挑戰(zhàn)賽的項(xiàng)目之一是對(duì)1000類、120萬(wàn)張互聯(lián)網(wǎng)圖片進(jìn)行分類,每張圖片人工標(biāo)注5個(gè)相關(guān)類別,計(jì)算機(jī)識(shí)別的結(jié)果只要有一個(gè)和人工標(biāo)注類別相同就算對(duì)。對(duì)于該圖片集,人眼辨識(shí)錯(cuò)誤率大概為5.1%,目前只有谷歌和微軟等個(gè)別參賽團(tuán)隊(duì)的算法能夠達(dá)到低于5%的結(jié)果。

2015年12月10日,微軟亞洲研究院視覺(jué)計(jì)算組在ImageNet計(jì)算機(jī)識(shí)別挑戰(zhàn)賽中再次打破紀(jì)錄,獲得圖像分類、圖像定位以及圖像檢測(cè)全部三個(gè)主要項(xiàng)目的冠軍,將系統(tǒng)錯(cuò)誤率降低至3.57%。

在計(jì)算機(jī)視覺(jué)識(shí)別領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)是主要的識(shí)別算法。微軟亞洲研究院視覺(jué)計(jì)算組首席研究員孫劍介紹,之所以能實(shí)現(xiàn)3.57%的重大突破,是因?yàn)樗鶐ьI(lǐng)的研究團(tuán)隊(duì)使用了前所未有的高達(dá)百層的深層卷積神經(jīng)網(wǎng)絡(luò)算法,比以往任何成功的算法層數(shù)多達(dá)5倍以上。

目前神經(jīng)網(wǎng)絡(luò)算法的層級(jí)普遍為20到30層,而在此次挑戰(zhàn)賽中微軟團(tuán)隊(duì)的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了152層。孫劍的團(tuán)隊(duì)還采用了全新的“殘差學(xué)習(xí)”原則,很好地解決了神經(jīng)網(wǎng)絡(luò)的層級(jí)數(shù)與準(zhǔn)確度之間的矛盾。孫劍說(shuō),“深層殘差網(wǎng)絡(luò)”極為通用,將極大地改善計(jì)算機(jī)視覺(jué)的研究。

把視覺(jué)識(shí)別推進(jìn)到智能終端里

ImageNet挑戰(zhàn)賽不斷激勵(lì)參賽的研究機(jī)構(gòu)開(kāi)發(fā)和優(yōu)化計(jì)算機(jī)視覺(jué)識(shí)別算法,但在實(shí)際商業(yè)應(yīng)用中卻需要把已經(jīng)研究出來(lái)的科學(xué)算法,用簡(jiǎn)單易用、高效可靠的工程化方式在智能手機(jī)等智能終端上實(shí)現(xiàn)。

微軟亞洲研究院硬件計(jì)算組與清華大學(xué)電子工程系一直在硬件加速領(lǐng)域合作近10年,從2013年開(kāi)始雙方一起研究怎樣把深層卷積神經(jīng)網(wǎng)絡(luò)與智能硬件結(jié)合起來(lái),其成果就是基于FPGA(可編程芯片)技術(shù)的A-Eye視覺(jué)芯片。

FPGA對(duì)用卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行圖像識(shí)別、壓縮算法進(jìn)行大數(shù)據(jù)處理等方面有重要價(jià)值。微軟的研究表明,高端GPU的圖像處理能力是FPGA的2到3倍,但FPGA的功耗約是高端GPU的1/10,多個(gè)FPGA結(jié)合能以低功耗達(dá)到GPU的處理能力。

微軟亞洲研究院硬件計(jì)算組主管研究員徐寧儀介紹說(shuō),A-Eye視覺(jué)芯片本質(zhì)上是想把現(xiàn)有的計(jì)算機(jī)視覺(jué)識(shí)別算法嵌入到普通的攝像頭里?,F(xiàn)在,深層神經(jīng)網(wǎng)絡(luò)算法的層數(shù)越來(lái)越高,需要的計(jì)算能力越來(lái)越強(qiáng),而智能手機(jī)等終端設(shè)備的計(jì)算、存儲(chǔ)和功耗都很有限,因此A-Eye本質(zhì)上是通過(guò)軟件壓縮和定制的硬件加速,讓計(jì)算機(jī)視覺(jué)識(shí)別算法適用于普通的智能終端。

A-Eye視覺(jué)芯片包括了一個(gè)基于軟件的壓縮算法和基于FPGA芯片的硬件實(shí)現(xiàn),可把一個(gè)典型的卷積神經(jīng)模型壓縮近五倍,并且在一個(gè)2cm×2cm面積的FPGA芯片里實(shí)現(xiàn)。A-Eye視覺(jué)芯片是一個(gè)通用的平臺(tái),適用于任何深層卷積神經(jīng)網(wǎng)絡(luò)算法。經(jīng)過(guò)壓縮后,一個(gè)原來(lái)500M的視覺(jué)識(shí)別算法能被壓縮到100M左右。

距離通用型視覺(jué)識(shí)別“一步之遙”

目前的攝像頭主要能完成圖像記錄、存儲(chǔ)等功能,而在攝像頭上嵌入A-Eye視覺(jué)芯片,就可以讓攝像頭具有視覺(jué)理解能力?;贏-Eye技術(shù)的高性能智能視覺(jué)芯片,可以廣泛用于智能安防、嬰兒和老人看護(hù)、無(wú)人汽車和無(wú)人機(jī)等各種需要計(jì)算機(jī)視覺(jué)的領(lǐng)域。城市的安防攝像頭如果配備了A-Eye芯片,就可以同時(shí)尋找一個(gè)“穿黃上衣背黑背包的人”,并且不漏過(guò)每一幀圖像。

那么,有了百層的神經(jīng)網(wǎng)絡(luò)和適用于智能終端的壓縮技術(shù)后,是否智能終端就具有與人類媲美的視覺(jué)識(shí)別能力了呢?還不是。徐寧儀介紹說(shuō),雖然可以把A-Eye技術(shù)工程化,用成本更低、更小型的通用芯片實(shí)現(xiàn)智能手機(jī)或網(wǎng)絡(luò)攝像頭的視覺(jué)識(shí)別能力,但由于深層神經(jīng)網(wǎng)絡(luò)算法僅僅是針對(duì)某一類圖像數(shù)據(jù)的“識(shí)別”,類似人眼這樣的通用圖像識(shí)別,還有一段路要走。

所謂深層神經(jīng)網(wǎng)絡(luò)算法或機(jī)器算法,本身僅僅是對(duì)某一類圖形圖像數(shù)據(jù)的數(shù)學(xué)建模,也就是要根據(jù)應(yīng)用場(chǎng)景建立相應(yīng)的數(shù)學(xué)模型。以花卉識(shí)別為例,微軟亞洲研究院與中科院合作,對(duì)260萬(wàn)張花卉照片進(jìn)行深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練,得出了花卉類的通用數(shù)學(xué)模型。基于這個(gè)數(shù)學(xué)模型,可以對(duì)攝像頭掃描進(jìn)來(lái)的任何花卉圖片進(jìn)行識(shí)別,準(zhǔn)確叫出花卉的名字及所屬的界、門、綱、目、科、屬、種。

換句話說(shuō),目前的視覺(jué)識(shí)別算法和壓縮技術(shù),僅僅是一種建立數(shù)學(xué)模型的工具。把海量的動(dòng)物圖片輸入到這個(gè)工具,另一端得出來(lái)的數(shù)學(xué)模型就只能識(shí)別動(dòng)物圖片,以此類推。所以,基于微軟的研究成果,可以開(kāi)發(fā)出針對(duì)特定場(chǎng)景、可商用的計(jì)算機(jī)視覺(jué)智能解決方案。

那么,我們離通用型計(jì)算機(jī)視覺(jué)智能還有多遠(yuǎn)?徐寧儀說(shuō),這個(gè)愿景也許不難實(shí)現(xiàn)。所謂“看過(guò)世界才知道世界是什么樣”,一個(gè)可能的方法是通過(guò)搜索引擎生成一個(gè)半通用型圖像識(shí)別模型,然后再把具體要識(shí)別的圖片與這個(gè)半通用型模型結(jié)合,迅速得出定制化、場(chǎng)景化的模型。

從目前微軟等公司的研究進(jìn)展看,人類離可商用的通用型實(shí)時(shí)計(jì)算機(jī)視覺(jué)已經(jīng)逼近拐點(diǎn)。背后還有一個(gè)推動(dòng)力不可忽視:全球5G技術(shù)的研發(fā)已在2016年初大規(guī)模啟動(dòng),移動(dòng)網(wǎng)絡(luò)帶寬很快將不再是問(wèn)題,智能手機(jī)等智能終端的性能也在飛速提升中。

更多資訊請(qǐng)關(guān)注機(jī)器視覺(jué)頻道。

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

最新新聞
查看更多資訊

娓娓工業(yè)

廣州金升陽(yáng)科技有限公司

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺(jué)
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0