韩国爱人,不敢说爱你

在幾乎所有的科幻電影里，人工智能機(jī)器人都能像人類那樣，用計(jì)算機(jī)視覺(jué)動(dòng)態(tài)的識(shí)別周圍環(huán)境、人與物?！缎乔虼髴?zhàn)7》里的新型機(jī)器人BB-8，還能通過(guò)頭部的配合，制造出各種萌萌的眼神和表情。

然而與人類數(shù)千年的文化相比，計(jì)算機(jī)科學(xué)本身也不過(guò)幾十年的歷史。人眼可以輕易的識(shí)別各種2D和3D圖像，對(duì)于計(jì)算機(jī)來(lái)說(shuō)只是無(wú)數(shù)像素點(diǎn)的集合。如何讓計(jì)算機(jī)分析這些捕獲的像素點(diǎn)，“識(shí)別”出來(lái)各種物體，一直是計(jì)算機(jī)視覺(jué)想要攻克的難關(guān)。

微軟研究院作為全球最大的企業(yè)研究院之一，長(zhǎng)期以來(lái)也與其它科技機(jī)構(gòu)一樣，試圖打開(kāi)機(jī)器之眼。2015年底，微軟在全球頂級(jí)的計(jì)算機(jī)視覺(jué)挑戰(zhàn)賽ImageNet中拿下了全部三項(xiàng)主要項(xiàng)目的冠軍。與此同時(shí)，在硬件端微軟還開(kāi)發(fā)出了針對(duì)智能終端的視覺(jué)識(shí)別模型壓縮算法。

可以說(shuō)，現(xiàn)在離計(jì)算機(jī)視覺(jué)的全面突破，只有一步之遙。

百層卷積神經(jīng)網(wǎng)絡(luò)

ImageNet挑戰(zhàn)賽的項(xiàng)目之一是對(duì)1000類、120萬(wàn)張互聯(lián)網(wǎng)圖片進(jìn)行分類，每張圖片人工標(biāo)注5個(gè)相關(guān)類別，計(jì)算機(jī)識(shí)別的結(jié)果只要有一個(gè)和人工標(biāo)注類別相同就算對(duì)。對(duì)于該圖片集，人眼辨識(shí)錯(cuò)誤率大概為5.1%，目前只有谷歌和微軟等個(gè)別參賽團(tuán)隊(duì)的算法能夠達(dá)到低于5%的結(jié)果。

2015年12月10日，微軟亞洲研究院視覺(jué)計(jì)算組在ImageNet計(jì)算機(jī)識(shí)別挑戰(zhàn)賽中再次打破紀(jì)錄，獲得圖像分類、圖像定位以及圖像檢測(cè)全部三個(gè)主要項(xiàng)目的冠軍，將系統(tǒng)錯(cuò)誤率降低至3.57%。

在計(jì)算機(jī)視覺(jué)識(shí)別領(lǐng)域，卷積神經(jīng)網(wǎng)絡(luò)是主要的識(shí)別算法。微軟亞洲研究院視覺(jué)計(jì)算組首席研究員孫劍介紹，之所以能實(shí)現(xiàn)3.57%的重大突破，是因?yàn)樗鶐ьI(lǐng)的研究團(tuán)隊(duì)使用了前所未有的高達(dá)百層的深層卷積神經(jīng)網(wǎng)絡(luò)算法，比以往任何成功的算法層數(shù)多達(dá)5倍以上。

目前神經(jīng)網(wǎng)絡(luò)算法的層級(jí)普遍為20到30層，而在此次挑戰(zhàn)賽中微軟團(tuán)隊(duì)的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了152層。孫劍的團(tuán)隊(duì)還采用了全新的“殘差學(xué)習(xí)”原則，很好地解決了神經(jīng)網(wǎng)絡(luò)的層級(jí)數(shù)與準(zhǔn)確度之間的矛盾。孫劍說(shuō)，“深層殘差網(wǎng)絡(luò)”極為通用，將極大地改善計(jì)算機(jī)視覺(jué)的研究。

把視覺(jué)識(shí)別推進(jìn)到智能終端里

ImageNet挑戰(zhàn)賽不斷激勵(lì)參賽的研究機(jī)構(gòu)開(kāi)發(fā)和優(yōu)化計(jì)算機(jī)視覺(jué)識(shí)別算法，但在實(shí)際商業(yè)應(yīng)用中卻需要把已經(jīng)研究出來(lái)的科學(xué)算法，用簡(jiǎn)單易用、高效可靠的工程化方式在智能手機(jī)等智能終端上實(shí)現(xiàn)。

微軟亞洲研究院硬件計(jì)算組與清華大學(xué)電子工程系一直在硬件加速領(lǐng)域合作近10年，從2013年開(kāi)始雙方一起研究怎樣把深層卷積神經(jīng)網(wǎng)絡(luò)與智能硬件結(jié)合起來(lái)，其成果就是基于FPGA（可編程芯片）技術(shù)的A-Eye視覺(jué)芯片。

FPGA對(duì)用卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行圖像識(shí)別、壓縮算法進(jìn)行大數(shù)據(jù)處理等方面有重要價(jià)值。微軟的研究表明，高端GPU的圖像處理能力是FPGA的2到3倍，但FPGA的功耗約是高端GPU的1/10，多個(gè)FPGA結(jié)合能以低功耗達(dá)到GPU的處理能力。

微軟亞洲研究院硬件計(jì)算組主管研究員徐寧儀介紹說(shuō)，A-Eye視覺(jué)芯片本質(zhì)上是想把現(xiàn)有的計(jì)算機(jī)視覺(jué)識(shí)別算法嵌入到普通的攝像頭里?，F(xiàn)在，深層神經(jīng)網(wǎng)絡(luò)算法的層數(shù)越來(lái)越高，需要的計(jì)算能力越來(lái)越強(qiáng)，而智能手機(jī)等終端設(shè)備的計(jì)算、存儲(chǔ)和功耗都很有限，因此A-Eye本質(zhì)上是通過(guò)軟件壓縮和定制的硬件加速，讓計(jì)算機(jī)視覺(jué)識(shí)別算法適用于普通的智能終端。

A-Eye視覺(jué)芯片包括了一個(gè)基于軟件的壓縮算法和基于FPGA芯片的硬件實(shí)現(xiàn)，可把一個(gè)典型的卷積神經(jīng)模型壓縮近五倍，并且在一個(gè)2cm×2cm面積的FPGA芯片里實(shí)現(xiàn)。A-Eye視覺(jué)芯片是一個(gè)通用的平臺(tái)，適用于任何深層卷積神經(jīng)網(wǎng)絡(luò)算法。經(jīng)過(guò)壓縮后，一個(gè)原來(lái)500M的視覺(jué)識(shí)別算法能被壓縮到100M左右。

距離通用型視覺(jué)識(shí)別“一步之遙”

目前的攝像頭主要能完成圖像記錄、存儲(chǔ)等功能，而在攝像頭上嵌入A-Eye視覺(jué)芯片，就可以讓攝像頭具有視覺(jué)理解能力?；贏-Eye技術(shù)的高性能智能視覺(jué)芯片，可以廣泛用于智能安防、嬰兒和老人看護(hù)、無(wú)人汽車和無(wú)人機(jī)等各種需要計(jì)算機(jī)視覺(jué)的領(lǐng)域。城市的安防攝像頭如果配備了A-Eye芯片，就可以同時(shí)尋找一個(gè)“穿黃上衣背黑背包的人”，并且不漏過(guò)每一幀圖像。

那么，有了百層的神經(jīng)網(wǎng)絡(luò)和適用于智能終端的壓縮技術(shù)后，是否智能終端就具有與人類媲美的視覺(jué)識(shí)別能力了呢？還不是。徐寧儀介紹說(shuō)，雖然可以把A-Eye技術(shù)工程化，用成本更低、更小型的通用芯片實(shí)現(xiàn)智能手機(jī)或網(wǎng)絡(luò)攝像頭的視覺(jué)識(shí)別能力，但由于深層神經(jīng)網(wǎng)絡(luò)算法僅僅是針對(duì)某一類圖像數(shù)據(jù)的“識(shí)別”，類似人眼這樣的通用圖像識(shí)別，還有一段路要走。

所謂深層神經(jīng)網(wǎng)絡(luò)算法或機(jī)器算法，本身僅僅是對(duì)某一類圖形圖像數(shù)據(jù)的數(shù)學(xué)建模，也就是要根據(jù)應(yīng)用場(chǎng)景建立相應(yīng)的數(shù)學(xué)模型。以花卉識(shí)別為例，微軟亞洲研究院與中科院合作，對(duì)260萬(wàn)張花卉照片進(jìn)行深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練，得出了花卉類的通用數(shù)學(xué)模型。基于這個(gè)數(shù)學(xué)模型，可以對(duì)攝像頭掃描進(jìn)來(lái)的任何花卉圖片進(jìn)行識(shí)別，準(zhǔn)確叫出花卉的名字及所屬的界、門、綱、目、科、屬、種。

換句話說(shuō)，目前的視覺(jué)識(shí)別算法和壓縮技術(shù)，僅僅是一種建立數(shù)學(xué)模型的工具。把海量的動(dòng)物圖片輸入到這個(gè)工具，另一端得出來(lái)的數(shù)學(xué)模型就只能識(shí)別動(dòng)物圖片，以此類推。所以，基于微軟的研究成果，可以開(kāi)發(fā)出針對(duì)特定場(chǎng)景、可商用的計(jì)算機(jī)視覺(jué)智能解決方案。

那么，我們離通用型計(jì)算機(jī)視覺(jué)智能還有多遠(yuǎn)？徐寧儀說(shuō)，這個(gè)愿景也許不難實(shí)現(xiàn)。所謂“看過(guò)世界才知道世界是什么樣”，一個(gè)可能的方法是通過(guò)搜索引擎生成一個(gè)半通用型圖像識(shí)別模型，然后再把具體要識(shí)別的圖片與這個(gè)半通用型模型結(jié)合，迅速得出定制化、場(chǎng)景化的模型。

從目前微軟等公司的研究進(jìn)展看，人類離可商用的通用型實(shí)時(shí)計(jì)算機(jī)視覺(jué)已經(jīng)逼近拐點(diǎn)。背后還有一個(gè)推動(dòng)力不可忽視：全球5G技術(shù)的研發(fā)已在2016年初大規(guī)模啟動(dòng)，移動(dòng)網(wǎng)絡(luò)帶寬很快將不再是問(wèn)題，智能手機(jī)等智能終端的性能也在飛速提升中。

更多資訊請(qǐng)關(guān)注機(jī)器視覺(jué)頻道。