圖像識別技術的前世今生及多領域應用

時間:2018-10-09

來源:網(wǎng)絡轉(zhuǎn)載

導語:圖像識別技術是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。簡單來說,就是讓機器能夠通過對感知信息的處理像人類一樣讀懂圖片的內(nèi)容,而不是只看到像素?,F(xiàn)代社交網(wǎng)絡的發(fā)展帶來了海量圖片視頻信息

【中國傳動網(wǎng) 行業(yè)動態(tài)】 圖像識別技術是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。簡單來說,就是讓機器能夠通過對感知信息的處理像人類一樣讀懂圖片的內(nèi)容,而不是只看到像素?,F(xiàn)代社交網(wǎng)絡的發(fā)展帶來了海量圖片視頻信息,目前人類現(xiàn)有信息中百分之七十的信息為視頻圖片信息。伴隨著圖片成為人類社會中的主要信息載體,難題隨之出現(xiàn)。圖片給我們帶來了快捷的信息記錄和分享方式,卻無法高效的進行檢索。在這樣的環(huán)境下,人工智能中的圖像識別技術就顯得尤為重要。本文將從圖像識別技術原理出發(fā),介紹這一技術的前世今生,以前在各行業(yè)的具體應用前景。

1、圖像識別技術原理

圖像識別技術其主要的作用就是按照所觀測到的圖像,對圖像中的物體進行分辨,以此來做好相應的具有意義的判斷,具體實現(xiàn)則是應用現(xiàn)代信息處理技術,以及計算機技術對人類認知過程進行模擬。通常情況下,一個圖像識別系統(tǒng)由圖像分割、圖像特征提取、分類器的識別這三個部分所組成,其中,圖像分割主要的作用就是將圖像劃分成為多個區(qū)域;圖像特征提取則是對多個區(qū)域的圖像進行相應的特征提?。环诸惼鞯淖R別則是按照圖像特征所提取的結(jié)果進行適當?shù)姆诸?。從某種程度來說,圖像分割其本身就能將其稱之為圖像識別的過程。

借助圖像識別技術,我們不僅可以通過圖片搜索更快的獲取信息,還可以產(chǎn)生一種新的與外部世界交互的方式,甚至會讓外部世界更加智能的運行。隨著圖形識別技術的不斷進步,越來越多的科技公司開始涉及圖形識別領域,這標志著讀圖時代正式到來,并且將引領我們進入更加智能的未來。

2、圖像識別技術的前世今生

圖像識別的初級階段——娛樂化、工具化

在這個階段,用戶主要是借助圖像識別技術來滿足某些娛樂化需求。例如,百度魔圖的“大咖配”功能可以幫助用戶找到與其長相最匹配的明星,百度的圖片搜索可以找到相似的圖片;Facebook研發(fā)了根據(jù)相片進行人臉匹配的DeepFace;雅虎收購的圖像識別公司IQEngine開發(fā)的Glow可以通過圖像識別自動生成照片的標簽以幫助用戶管理手機上的照片;國內(nèi)專注于圖像識別的創(chuàng)業(yè)公司曠視科技成立了VisionHacker游戲工作室,借助圖形識別技術研發(fā)移動端的體感游戲。

這個階段還有一個非常重要的細分領域——OCR(OpticalCharacterRecognition,光學字符識別),是指光學設備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程,就是計算機對文字的閱讀。語言和文字是我們獲取信息最基本、最重要的途徑。在比特世界,我們可以借助互聯(lián)網(wǎng)和計算機輕松的獲取和處理文字。但一旦文字以圖片的形式表現(xiàn)出來,就對我們獲取和處理文字平添了很多麻煩。這一方面表現(xiàn)為數(shù)字世界中由于特定原因被存儲稱圖片格式的文字;另一方面是我們在現(xiàn)實生活中看到的所有物理形態(tài)的文字。所以我們需要借助OCR技術將這些文字和信息提取出來。在這方面,國內(nèi)產(chǎn)品包括百度的涂書筆記和百度翻譯等;而谷歌借助經(jīng)過DistBelief訓練的大型分布式神經(jīng)網(wǎng)絡,對于Google街景圖庫的上千萬門牌號的識別率超過90%,每天可識別百萬門牌號。

在這個階段,圖像識別技術僅作為我們的輔助工具存在,為我們自身的人類視覺提供了強有力的輔助和增強,帶給了我們一種全新的與外部世界進行交互的方式。我們可以通過搜索找到圖片中的關鍵信息;可以隨手拍下一件陌生物體而迅速找到與之相關的各類信息;可以將潛在搭訕對象拍下提前去她的社交網(wǎng)絡了解一番;也可以將人臉識別作為主要的身份認證方式……這些應用雖然看起來很普通,但當圖像識別技術滲透到我們行為習慣的方方面面時,我們就相當于把一部分視力外包給了機器,就像我們已經(jīng)把部分記憶外包給了搜索引擎一樣。

這將極大改善我們與外部世界的交互方式,此前我們利用科技工具探尋外部世界的流程是這樣:人眼捕捉目標信息、大腦將信息進行分析、轉(zhuǎn)化成機器可以理解的關鍵詞、與機器交互獲得結(jié)果。而當圖像識別技術賦予了機器“眼睛”之后,這個過程就可以簡化為:人眼借助機器捕捉目標信息、機器和互聯(lián)網(wǎng)直接對信息進行分析并返回結(jié)果。圖像識別使攝像頭成為解密信息的鑰匙,我們僅需把攝像頭對準某一未知事物,就能得到預想的答案。就像百度科學家余凱所說,攝像頭成為連接人和世界信息的重要入口之一。

圖像識別的高級階段——擁有視覺的機器

目前的圖像識別技術是作為一個工具來幫助我們與外部世界進行交互,只為我們自身的視覺提供了一個輔助作用,所有的行動還需我們自己完成。而當機器真正具有了視覺之后,它們完全有可能代替我們?nèi)ネ瓿蛇@些行動。目前的圖像識別應用就像是盲人的導盲犬,在盲人行動時為其指引方向;而未來的圖像識別技術將會同其他人工智能技術融合在一起成為盲人的全職管家,不需要盲人進行任何行動,而是由這個管家?guī)椭渫瓿伤惺虑椤Ee個例子,如果圖像識別是一個工具,就如同我們在駕駛汽車時佩戴谷歌眼鏡,它將外部信息進行分析后傳遞給我們,我們再依據(jù)這些信息做出行駛決策;而如果將圖像識別利用在機器視覺和人工智能上,這就如同谷歌的無人駕駛汽車,機器不僅可以對外部信息進行獲取和分析,還全權(quán)負責所有的行駛活動,讓我們得到完全解放。

《人工智能:一種現(xiàn)代方法》中提到,在人工智能中,感知是通過解釋傳感器的響應而為機器提供它們所處的世界的信息,其中它們與人類共有的感知形態(tài)包括視覺、聽覺和觸覺,而視覺最為重要,因為視覺是一切行動的基礎。在一次論壇上百度IDL的余凱院長問大家,你覺得哪種感覺最重要?沒有人能很快作答,后來余凱院長換了個提問方式,如果要放棄一種感覺,你最不愿意放棄的是那一種?這時大家都回答是視覺。ChrisFrith在《心智的構(gòu)建》中提到,我們對世界的感知不是直接的,而是依賴于“無意識推理”,也就是說在我們能感知物體之前,大腦必須依據(jù)到達感官的信息來推斷這個物體可能是什么,這構(gòu)成了人類最重要的預判和處理突發(fā)時間的能力。而視覺是這個過程中最及時和準確的信息獲取渠道,人類感覺信息中的80%都是視覺信息。機器視覺之于人工智能的意義就是視覺之于人類的意義,而決定著機器視覺的就是圖像識別技術。

更重要的是,在某些應用場景,機器視覺比人類的生理視覺更具優(yōu)勢,它更加準確、客觀和穩(wěn)定。人類視覺有著天然的局限,我們看起來能立刻且毫無費力的感知世界,而且似乎也能詳細生動的感知整個視覺場景,但這只是一個錯覺,只有投射到眼球中心的視覺場景的中間部分,我們才能詳細而色彩鮮明的看清楚。偏離中間大約10度的位置,神經(jīng)細胞更加分散并且智能探知光和陰影。也就是說,在我們視覺世界的邊緣是無色、模糊的。因此,我們才會存在“變化盲視”,才會在經(jīng)歷著多樣事物發(fā)生時,僅僅關注其中一樣,而忽視了其他樣事物的發(fā)生,而且不知道它們的發(fā)生。而機器在這方面就有著更多的優(yōu)勢,它們能夠發(fā)現(xiàn)和記錄視力所及范圍內(nèi)發(fā)生的所有事情。拿應用最廣的視頻監(jiān)控來說,傳統(tǒng)監(jiān)控需要有人在電視墻前時刻保持高度警惕,然后再通過自己對視頻的判斷來得出結(jié)論,但這往往會因為人的疲勞、視覺局限和注意力分散等原因影響監(jiān)控效果。但有了成熟的圖像識別技術之后,再加以人工智能的支持,計算機就可以自行對視頻進行分析和判斷,發(fā)現(xiàn)異常情況直接報警,帶來了更高的效率和準確度;在反恐領域,借助機器的人臉識別技術也要遠遠優(yōu)于人的主觀判斷。

許多科技巨頭也開始了在圖像識別和人工智能領域的布局,F(xiàn)acebook簽下的人工智能專家YannLeCun最重大的成就就是在圖像識別領域,其提出的LeNet為代表的卷積神經(jīng)網(wǎng)絡,在應用到各種不同的圖像識別任務時都取得了不錯效果,被認為是通用圖像識別系統(tǒng)的代表之一;Google借助模擬神經(jīng)網(wǎng)絡“DistBelief”通過對數(shù)百萬份YouTube視頻的學習自行掌握了貓的關鍵特征,這是機器在沒有人幫助的情況下自己讀懂了貓的概念。值得一提的是,負責這個項目的AndrewNG已經(jīng)轉(zhuǎn)投百度領導百度研究院,其一個重要的研究方向就是人工智能和圖像識別。這也能看出國內(nèi)科技公司對圖像識別技術以及人工智能技術的重視程度。

3、圖像識別技術的行業(yè)應用

盡管還未達到真正的人工智能,但日漸成熟的圖像識別技術已開始探索各類行業(yè)的應用。當前,圖像識別技術已成功應用到工業(yè)機器人、自動駕駛、醫(yī)療診斷、安防監(jiān)控和工業(yè)檢測等多個領域。其中,圖像識別在工業(yè)中的應用最為廣泛,而工業(yè)中又以電子制造占比最大,約占40%至50%。隨著科技業(yè)新技術迭出,圖像識別的應用領域窗口將被打開,未來這一應用技術將擴展至消費電子、可穿戴式裝置、汽車先進駕駛輔助系統(tǒng)、智能化監(jiān)控等更貼近大眾生活的領域以及當前各炙手可熱的新興行業(yè)。

(1)圖像識別技術在安防行業(yè)大顯身手

在AI的賦能下,圖像識別技術在安防領域可謂是如虎添翼,大顯身手。對于掌握了許多視頻圖像資源的安防行業(yè)來說,深度學習和安防的結(jié)合擁有比較高的契合度。公安行業(yè)借助智能視頻分析主要用于實現(xiàn)城市道路、廣場及各類重點場所的人、車、物等目標的識別,提取包括人的性別、人臉、全身等信息,車的車標、車牌、車身顏色等信息,這些信息均可提煉為計算機能識別的結(jié)構(gòu)化數(shù)據(jù),送入后端進行專業(yè)的安全管理應用,主要包括實時布控、高危人員比對、以圖搜圖、多點碰撞、語義搜索等方面。

(2)圖像識別技術助力農(nóng)林業(yè)

在農(nóng)林行業(yè),圖像識別技術已經(jīng)得到應用。例如,木材的生產(chǎn)包含多個環(huán)節(jié),過去這些環(huán)節(jié)往往牽涉到大量的人力投入。如今,圖像識別已在多個環(huán)節(jié)中得到應用,例如森林調(diào)查,通過無人機對圖像進行采集,再通過圖像分析系統(tǒng)對森林樹種的覆蓋比例、林木的健康狀況進行分析,從而可以做出更科學的開采方案。而原木檢驗方面,圖像識別可以快速對木材的樹種、優(yōu)劣、規(guī)格進行判斷,省去了大量人工參與的環(huán)節(jié)。

(3)圖像識別技術應用于金融領域

在金融領域,身份識別和智能支付將提高身份安全性與支付的效率和質(zhì)量。比如,在傳統(tǒng)金融中,用戶在申請銀行貸款或證券開戶時,均必須到實體門店上做身份信息核實,完成面簽。如今,通過人臉識別技術,用戶只需要打開手機攝像頭,自拍一張照片,系統(tǒng)將會做一個活體檢測,并進行一系列的驗證、匹配和判定,最終會判斷這個照片是否是用戶本人操作,完成身份核實。

(4)圖像識別技術應用于智能家居

在智能家居領域,通過攝像頭獲取到圖像,然后通過圖像識別技術識別出圖像的內(nèi)容,從而做出不同的響應。舉個例子,我們在門口安裝了攝像頭,當有物體出現(xiàn)在攝像頭范圍內(nèi)的時候,攝像頭自動拍攝下圖像進行識別,如果發(fā)現(xiàn)是可疑的人或物體,就可以及時報警給戶主。如果圖像和主人的面部匹配,則會主動為主人開門。

還有家庭用的智能機器人,通過圖像識別技術可以對物體進行識別,并且實現(xiàn)對人的跟隨,搭配上人工智能系統(tǒng),它能分辨出你是它的哪個主人,并且能你進行一些簡單的互動,比如檢測到是家里的老人,它可能會為你測一測血壓,如果是小孩子,它可能給你講個故事。

(5)圖像識別技術促進電商發(fā)展,幫你尋找喜歡的衣服鞋子

網(wǎng)購時消費者使用的“相似款(拍照識別/掃描識別)”搜索功能,就是基于圖像識別技術,當消費者將鼠標停留在感興趣的商品上后,就可以選擇查看相似的款式;同時通過調(diào)整算法,還能夠更好的猜測消費者的意圖,搜素結(jié)果即使不能提供完全匹配的商品,也會為消費者推薦最為相關的商品,盡量滿足消費者的購物需求。這對于商家來說,也是一種從外界導流和提高移動端用戶黏度的方式之一。

(6)圖像識別技術助力醫(yī)學影像智能識別

醫(yī)生資源短缺將促進AI智能影像識別的應用落地。將圖像識別技術應用到醫(yī)療領域,可以更精準更快速地分辨X光片、MRI和CT掃描圖片,上至診斷預防癌癥,下至加速發(fā)現(xiàn)治病救命的新藥。一個放射科醫(yī)生一生可能會看上萬張掃描圖像,但是,一臺計算機可能會看上千萬張。智能影像識別市場分類多空間大,人工智能方法在醫(yī)學圖像處理中的應用十分廣泛,涉及醫(yī)學圖像分割、圖像配準、圖像融合、圖像壓縮、圖像重建等多個領域。

(7)圖像識別技術助力智慧交通

具有分析、感知能力的智能攝像機通過視頻識別分析技術,可對每輛車進行完整的違法行為分析、識別、抓拍和錄像,記錄車輛違法的整個過程,再將每條記錄生成非結(jié)構(gòu)化的視頻、照片數(shù)據(jù)和結(jié)構(gòu)化的文本數(shù)據(jù)提交給后端智能管理與分析系統(tǒng),由系統(tǒng)進行高度智能的交通違法行為處理。基于智能視頻分析技術,智能交通管理系統(tǒng)還能得出不同品牌的車型擁有量、過車高峰期、車輛進出城高峰期及行駛方向等豐富的交通數(shù)據(jù),為城市交通流量管控、交通道路規(guī)劃等提供詳實的數(shù)據(jù)支撐。

總之,圖像識別技術,連接著機器和這個一無所知的世界,幫助它越發(fā)了解這個世界,并最終代替我們完成更多的任務。

中傳動網(wǎng)版權(quán)與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權(quán)利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅(qū)與傳動公眾號獲取更多資訊

關注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0