人工智能“稱霸”了圍棋,但機(jī)器視覺能贏過人類視覺嗎?

時間:2016-05-13

來源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語:這種高度相似性就引發(fā)了一個有趣的問題:如果機(jī)器視覺與人類視覺工作機(jī)理相似,那么它們是否也受到相似的制約?面對相似的視覺挑戰(zhàn)時,機(jī)器視覺與人類視覺的表現(xiàn)是否一致?

人類與機(jī)器都依賴于神經(jīng)網(wǎng)絡(luò)來進(jìn)行目標(biāo)與面部識別。最新的證據(jù)顯示,這兩類視覺系統(tǒng)也具有相同的缺陷。

深度卷積神經(jīng)網(wǎng)絡(luò)以排山倒海之勢席卷了人工智能領(lǐng)域。確實(shí),現(xiàn)在這些機(jī)器視覺已經(jīng)在面部識別、物體識別甚至是下圍棋等眾多領(lǐng)域頻頻完勝人類對手。

當(dāng)然,頗為諷刺的一點(diǎn)是,神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)框架很大程度上模擬了人類的大腦結(jié)構(gòu)。因此,機(jī)器視覺的深度神經(jīng)網(wǎng)絡(luò)宏觀結(jié)構(gòu)與人類大腦負(fù)責(zé)視覺的部分十分類似。盡管人類大腦經(jīng)歷了數(shù)百萬年的進(jìn)化,而另一者才剛剛問世數(shù)十年,但是這兩者的內(nèi)在的機(jī)理卻十分相似。

這種高度相似性就引發(fā)了一個有趣的問題:如果機(jī)器視覺與人類視覺工作機(jī)理相似,那么它們是否也受到相似的制約?面對相似的視覺挑戰(zhàn)時,機(jī)器視覺與人類視覺的表現(xiàn)是否一致?

近日,伊朗德黑蘭大學(xué)的薩義德·克萊德皮舍(SaeedRezaKheradpisheh)和其合作者們?yōu)槲覀兘议_了這一問題的答案。他們使用了同樣的圖片,對于人類和機(jī)器分別進(jìn)行了測試。研究發(fā)現(xiàn),人類和機(jī)器確實(shí)會受到相同問題的困擾。

首先容小編介紹一點(diǎn)背景。在人類大腦中,負(fù)責(zé)視覺的通路包含了數(shù)層神經(jīng)元,每一層神經(jīng)元的作用,是逐步地從一張圖片中發(fā)掘出更多的信息,比如移動,形狀,顏色等等。這些神經(jīng)元之間相互聯(lián)接,形成了巨大的網(wǎng)絡(luò)。

深度卷積神經(jīng)網(wǎng)絡(luò)也擁有類似的結(jié)構(gòu)。它們也包含了許多層,每一層都包含了模擬神經(jīng)元的網(wǎng)絡(luò)回路,因此得名神經(jīng)網(wǎng)絡(luò)。

通過不斷的研究,計(jì)算機(jī)科學(xué)家們發(fā)現(xiàn),當(dāng)神經(jīng)網(wǎng)絡(luò)中每一個神經(jīng)元層都用來從圖片中逐步發(fā)掘新信息時,神經(jīng)網(wǎng)絡(luò)具有最好的計(jì)算性能??茖W(xué)家們研究單一神經(jīng)元層時發(fā)現(xiàn),這些神經(jīng)元層所具有的功能與大腦中某些特定的神經(jīng)元具有驚人的相似性。

但是,盡管人類大腦擅于進(jìn)行目標(biāo)識別,但它并不是完美的。比如說,將一張圖片進(jìn)行某種變形,人類可能并不能很輕易地識別圖像中的目標(biāo)。

舉個例子,想象一下一張從側(cè)面拍攝的汽車照片。人們已經(jīng)開發(fā)出了成千上萬種對于圖片進(jìn)行變形的方法。比如說對圖片中的對象進(jìn)行平移,分割,或者是將其放大或者縮小。

除此之外,還有兩種旋轉(zhuǎn)方式。其一是“平面旋轉(zhuǎn)”,比如說將照片中的汽車上下顛倒。

另一種是“深度旋轉(zhuǎn)”(或者說立體旋轉(zhuǎn))。在這種情形下,你需要將這個汽車想象成一個3D的物體。在深度上對汽車進(jìn)行旋轉(zhuǎn),你看見的可能是汽車的前部,后部或者是四分之三側(cè)視像,等等。

但是,就兩張擁有著相同汽車的圖片而言,改變不同的視角對于識別汽車會造成多大的影響?顯然,有一些變形比另一些更為困難,但是具體是哪些變形?機(jī)器視覺是否也會遇到相同的困難?

為了找出答案,克萊德皮舍和其合作者們制作了多張含有四類不同物體的圖片。隨后,這些圖片被用于測試人類與深度神經(jīng)網(wǎng)絡(luò)物體識別能力。

在人類受試環(huán)節(jié),電腦屏幕上會隨機(jī)出現(xiàn)一張照片,并顯示大約12.5毫秒。受試者們需要按下四個按鈕中的一個,來指出剛才看到的圖片中出現(xiàn)的是一輛車,一艘船,一輛摩托車或是一個小動物。

一共有89名受試者參加了實(shí)驗(yàn),每一名受試者都瀏覽了960張圖片。研究者們根據(jù)每位受試者的反應(yīng)速度與正確率來衡量他們辨別物體能力的高低。

與此同時,研究團(tuán)隊(duì)使用了兩個目前在目標(biāo)識別領(lǐng)域最為強(qiáng)大的深度卷積網(wǎng)絡(luò)模型進(jìn)行了相同的測試。這兩個神經(jīng)網(wǎng)絡(luò)模型分別來自加拿大的多倫多大學(xué)和英國的牛津大學(xué)。

研究團(tuán)隊(duì)最終得出的結(jié)論頗為有趣??巳R德皮舍說,“我們發(fā)現(xiàn),人類視覺與深度卷積神經(jīng)網(wǎng)絡(luò)識別不同變形的水平大致相當(dāng)。目前看來,對于兩者而言,深度旋轉(zhuǎn)是最具挑戰(zhàn)性的變形方式,之后是圖片的縮放,平面旋轉(zhuǎn)和平面移動(最簡單)。”

這一看似有趣的研究實(shí)際上有著極為重要的應(yīng)用。簡單來說,計(jì)算機(jī)科學(xué)家們在未來為測試機(jī)器視覺創(chuàng)建圖像數(shù)據(jù)庫時,需要更加謹(jǐn)慎。將來,他們需要對那些機(jī)器難以識別的因素加以控制。

同時,這項(xiàng)研究也展示了利用卷積神經(jīng)網(wǎng)絡(luò)來幫助研究者們研究人類認(rèn)知的巨大潛力。在許多應(yīng)用場合中,某些特殊圖像的設(shè)計(jì)是一項(xiàng)至關(guān)重要的任務(wù),比如航空管制識別,緊急出口標(biāo)志設(shè)計(jì),救生設(shè)備說明書設(shè)計(jì)等。

使用人工對這些圖像進(jìn)行評估既耗時,又昂貴。但是,或許神經(jīng)網(wǎng)絡(luò)可以替代人類完成這些任務(wù),或者至少過濾掉那些最差勁的設(shè)計(jì)樣本,從而大大減輕人類的工作負(fù)擔(dān)。

除此之外,基于這項(xiàng)研究,研究人員們或許還得以開發(fā)出不會與人類犯同樣錯誤的機(jī)器視覺系統(tǒng)。這類系統(tǒng)可以用來輔助人類在某些重要場合下,比如駕駛時的決策。

當(dāng)然,這一切都只是一個開始。神經(jīng)網(wǎng)絡(luò)的到來,對于那些原來只能由人類負(fù)責(zé)的任務(wù)而言,不啻于一次變革,在將來,這一變革還將繼續(xù)加速。

中傳動網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

娓娓工業(yè)

廣州金升陽科技有限公司

熱搜詞
  • 運(yùn)動控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0