機器視覺?|3D視覺為機器人增加“眼睛” 設(shè)計

時間:2019-05-13

來源:電子技術(shù)

導(dǎo)語:?人類之所以能夠駕馭這個世界,是因為具有三維(3D)感知能力。而這個能力也可以賦予給我們的機器人。但人類感知三維的方式也許并不適用于機器。要引導(dǎo)機器人運用深度傳感視覺,需要考慮三個關(guān)鍵方法:立體視覺、結(jié)構(gòu)光和飛行時間(ToF)。

人類之所以能夠駕馭這個世界,是因為具有三維(3D)感知能力。而這個能力也可以賦予給我們的機器人。但人類感知三維的方式也許并不適用于機器。要引導(dǎo)機器人運用深度傳感視覺,需要考慮三個關(guān)鍵方法:立體視覺、結(jié)構(gòu)光和飛行時間(ToF)。

機器人系統(tǒng)已經(jīng)存在了幾十年,但直到最近它們大多都是盲目工作。只需為機器人配備接觸傳感器、接近傳感器和位置傳感器,它們就可以優(yōu)雅地進行精心編排的、無休止的重復(fù)動作,可以操縱重型材料,執(zhí)行精密裝配,或焊接復(fù)雜的結(jié)構(gòu)。但是,它們工作的成功與否,取決于其環(huán)境的精確性、必用材料的精確放置,以及對其運動軌跡的仔細繪制和編程。

然而,這種情況正在發(fā)生變化。機器視覺和視覺智能方面的研究、半導(dǎo)體制造的進步,以及圖像傳感器在手機市場上的應(yīng)用,簡化了視覺系統(tǒng)的開發(fā)并降低了其成本,使其成為了一種擴展機器人功能的越來越具成本效益的選擇。借助視覺(特別是3D視覺)的引導(dǎo),機器人將變得更能夠與自由世界交互,工作起來更靈活,也更容易適應(yīng)新的任務(wù)。

然而,特定的機器人所需的視覺特性高度取決于應(yīng)用。例如,對于那些必須通過視覺引導(dǎo)在雜亂的倉庫里移動的機器人來說,它們需要對動態(tài)環(huán)境進行遠程感知,但只需要提供適當?shù)木?。固定機器人的需求則可能完全不同,例如有些機器人用來將箱子里所混合的零件取出,并按相同類型進行堆放,這可能只需要在有限的范圍內(nèi)提供高精度的視覺。執(zhí)行精密裝配的機器人則又有另一套需求。因此,要確定采用哪一種3D視覺方法,首先要對機器“觀看”的工作方式有所理解。

立體機器視覺

由于和人類觀看的方式相似,最容易理解的3D方法是立體視覺。這是一種三角測量法,即用相隔一定距離的攝像頭去捕獲兩個(或多個)圖像(或用一個攝像頭在圖像之間移動),然后通過比較來確定攝像頭視場中物體的距離。將攝像頭分離會產(chǎn)生視差,這樣,較近物體相對遠處背景的對齊就會不同——物體越接近攝像頭,視差越大。

圖1給出了一個簡單的示例。圖中的兩個攝像頭沿平行軸指向相同方向,其傳感器對齊并相隔基線距離B,每個攝像頭都會捕獲一個3D空間(X,Y,Z)的點(P)圖像。捕獲的圖像中,該點在其2D圖像平面上的位置將會不同(uL和uR)。幾何上,該位置相當于從P點向攝像頭引一條射線,穿過一個垂直于攝像頭光軸(ZA)、距離等于攝像頭鏡頭焦距(f)的平面所得的交點。

1.jpg 

圖1:簡單的立體視覺幾何圖。

如果取每個攝像頭的ZA與該平面相交的點作為每個圖像2D坐標系的原點,那么計算兩個成像點之間的距離,就可以獲得該點的視差(d)。然后,就可以很容易地計算出該點到圖像平面的距離(深度):

深度=f*B/d

但是通?,F(xiàn)實世界中的系統(tǒng)不是那么容易對齊的。圖2給出了一種更通用的設(shè)置,其中,每個攝像頭都有自己的坐標系,它們以其光軸方向和圖像傳感器像素柵格的旋轉(zhuǎn)方向來界定。確定圖像點視差要比簡單的距離計算更復(fù)雜,這涉及到坐標變換和幾何校正,但三角測量原理是相同的。

2.jpg 

圖2:現(xiàn)實世界中的立體視覺幾何圖

幸運的是,有大量的商用和開源軟件可以處理這些計算。還有一些軟件可使用攝像頭柵格圖像來確定所有必要的坐標變換,這樣開發(fā)人員就不需要精確地確定攝像頭方向。因此,計算空間中單個點的深度信息就變成了機器視覺系統(tǒng)中相對簡單的一項運算。

但是,這當中仍然存在許多其他的計算挑戰(zhàn)。其中最重要的一個是讓系統(tǒng)確定不同攝像頭圖像中是哪個點對應(yīng)于空間中的相同物理點。這個確定過程可能涉及極為復(fù)雜的相關(guān)過程,需要將來自一幅圖像的一小組像素與構(gòu)成另一幅圖像的所有組像素進行比較來確定哪些組匹配,然后對構(gòu)成第一幅圖像的所有小像素組重復(fù)該過程。

結(jié)構(gòu)光深度測定

第二種3D視覺方法——結(jié)構(gòu)光——可簡化上面這個相關(guān)過程,設(shè)計人員應(yīng)當留意這個優(yōu)勢。這種方法在三角測量工作中用投光機取代了其中一個攝像頭。投光機生成一個已知的光斑,然后系統(tǒng)將攝像頭圖像與這個已知光斑進行比較。所捕獲圖像中的結(jié)構(gòu)光光斑會因為被測對象上的每個點深度不同而產(chǎn)生失真(圖3)。在這個例子中,可以使用基線和兩條射線之間夾角計算出P點的深度(R):

R=B(sinα)/sin(α+θ)

3.jpg 

圖3:結(jié)構(gòu)光系統(tǒng)根據(jù)已知光斑產(chǎn)生的反射光失真來計算深度

目前業(yè)界已針對場景的深度信息提取開發(fā)出各種各樣的結(jié)構(gòu)光方案(圖4),但其中有許多針對的是物體掃描而不是機器人運動控制。其中一些結(jié)構(gòu)光方案產(chǎn)生圖像序列所使用的光斑包含若干條紋,其寬度從一個圖像到下一個圖像依次減半(二進制編碼)。還有類似采用格雷碼或相移條紋的連續(xù)光斑也有使用。要利用單個圖像捕獲深度信息,可以利用連續(xù)變化的顏色編碼圖案,或?qū)l紋圖案編制索引,即每個條紋都與其他條紋不同。使用激光器或微鏡光控制器可以很容易地創(chuàng)建這樣的圖案,而ams、Finisar和TI等公司也都專門針對結(jié)構(gòu)光光源制造器件和控制器。

最近越來越流行的一種結(jié)構(gòu)光方法是以偽隨機圖案來排列編碼形狀或二進制點所組成的柵格。系統(tǒng)使用人眼看不見的紅外(IR)光來投射這種柵格圖案,并且因為柵格是靜止的,所以可以使用簡單的全息光柵來創(chuàng)建圖案。使用這種方法的商用深度傳感攝像頭系統(tǒng)現(xiàn)已上市。(請參見EDN姊妹刊物ElectronicProducts上發(fā)表的《Designer'sguideto3Dcameras》一文)。

紅外光的使用在視覺引導(dǎo)機器人應(yīng)用中具有兩個明顯優(yōu)勢。首先,它可以使視覺系統(tǒng)與人類一起工作,而不會因結(jié)構(gòu)光投射而為人類帶來的視覺混亂。其次,使用紅外光還可簡化將結(jié)構(gòu)光與環(huán)境光分離的工作。

 4.jpg

圖4:3D結(jié)構(gòu)光的種類。(來源:OSA,《Structured-light3Dsurfaceimaging:Atutorial》)

飛行時間深度測量

第三種3D視覺方法——飛行時間(ToF)——完全沒有使用三角測量法。ToF3D成像是直接測量深度,也就是確定光從光源到達環(huán)境中的物體然后返回所用的時間。在這方面,ToF類似于激光雷達(LIDAR)。然而,ToF方法不是用窄激光束掃描環(huán)境來構(gòu)建深度圖像,而是針對整個視場同時確定距離。半導(dǎo)體技術(shù)在不斷進步,如今的傳感器設(shè)計已經(jīng)可以實現(xiàn)每個像素都可以向控制電子邏輯提供自己的信號,進而提取出計時信息。

ToF的一個挑戰(zhàn)在于能夠在有意義的范圍內(nèi)實現(xiàn)精確計時,從而獲得精確的深度信息。光在空氣中的傳播速度約為1ft/ns(c),因此光脈沖必須使用數(shù)GHz時鐘,才能分辨小于1ft的尺寸。類似地,傳感器信號必須以亞納秒精度進行測量。但是,這么短的脈沖所含光子數(shù)量有限,也即傳感器接收到的光子數(shù)太少,從而導(dǎo)致信噪比(SNR)不佳。

盡管如此,仍有傳感器使用直接時間測量法。Teledynee2v的1.3MPBORACMOS圖像傳感器提供距離選通成像,其全局快門開關(guān)可使傳感器僅在很短的一段時間內(nèi)針對特定深度平面收集光子。通過結(jié)合多次光照的結(jié)果,該傳感器可以建立更強的信號用于處理。若在整個系統(tǒng)范圍內(nèi)掃描快門計時,該系統(tǒng)就可以在其深度范圍內(nèi)構(gòu)建完整的深度圖。

然而,更常見的一種方法是檢測發(fā)射信號與反射信號之間的相位差來獲取深度信息。圖5給出了這種方法,反映了反射信號與方波發(fā)射脈沖(也可以是其他調(diào)制波)之間的關(guān)系。物距越大,關(guān)聯(lián)信號越短,并且信號在多個周期內(nèi)的積分值越低。由于對信號強度進行積分測量起來會比瞬時計時更加精確,因此這種方法的深度測量精度會比簡單計算信號返回時間更高。目前,Infineon、pmd和TI等公司都提供這類ToF傳感器,其中一些更具有可執(zhí)行所有深度計算的內(nèi)置電路。

 5.jpg

圖5:ToF通過比較反射信號與發(fā)射信號的時序來直接測量距離。

不幸的是,這兩種方法均存在深度混疊的問題。ToF方案中,光源的調(diào)制頻率(f)決定了最大不模糊距離,為R=c/2f。假如光脈沖速率是100MHz,則傳感器可以清楚分辨的最大范圍是5ft(10ns往返)。如果一個物體在6ft以外,其相關(guān)信號與1ft外的物體別無二致。也就是說,6ft遠的物體對脈沖N的反射光線,其到達傳感器的時間與1ft遠的物體對脈沖N+1的反射相同。

降低調(diào)制頻率可增大不模糊距離,但也有不利后果。釋放的光子數(shù)較少,會使信噪比變差,或需要增加積分時間。這兩種結(jié)果都不可取。

有一種解決方案是通過在光源中混合兩種調(diào)制頻率,來實現(xiàn)信號的去混疊。然后,傳感器信號處理可以在對信號進行積分之前分離頻率。其總返回信號較高,可提供良好的信噪比;不同的頻率所混疊的距離不同,有助于解決距離模糊問題。該方案的最大模糊距離為光速除以兩個頻率最大公分母的兩倍。

R=c/2*GCD(f1,f2)

根據(jù)需求匹配優(yōu)勢

上述3D視覺方法各有優(yōu)劣,開發(fā)人員應(yīng)根據(jù)其應(yīng)用需求進行評估和選擇;了解各種3D視覺技術(shù)的含義對于選擇正確的方法也至關(guān)重要。例如,立體視覺系統(tǒng)可以使用傳統(tǒng)的攝像頭,并且無需使用集成式光源,所以這種方法成本低廉并且更容易集成到設(shè)計中。但是立體視覺系統(tǒng)的深度精度取決于其在多幅圖像中找到對應(yīng)點所需的計算性能,而且物體距離越遠,深度分辨率越差。立體視覺系統(tǒng)在應(yīng)對光滑表面和重復(fù)圖案上也存在問題,這兩者都使找到對應(yīng)點的任務(wù)變得更復(fù)雜。

另一方面,結(jié)構(gòu)光方法也使用傳統(tǒng)攝像頭,但只需要一個。其不需要有很強的計算性能,因此有助于降低成本。但其需要使用集成式光源,其強度會影響工作距離。在環(huán)境光可控或被濾除的情況下,其效果最佳,例如在封閉空間中。

ToF系統(tǒng)的計算強度最低,由于攝像頭通常直接向系統(tǒng)主機提供深度信息,因此大大降低了計算需求。然而,與結(jié)構(gòu)光一樣,系統(tǒng)需要使用集成式光源,其功率會影響系統(tǒng)的距離,環(huán)境光不受控也會導(dǎo)致問題。此外,光源的調(diào)制頻率也會影響距離。

無論哪種方法最適合您的應(yīng)用,為機器人配備視覺引導(dǎo)正變得越來越容易?,F(xiàn)貨攝像頭系統(tǒng)和視覺軟件(商用和開源)也使事情變得更簡單。此外,為下一代智能手機提供3D視覺功能的研發(fā),有望進一步降低3D視覺的成本和復(fù)雜性。


中傳動網(wǎng)版權(quán)與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0