技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 移動(dòng)協(xié)作機(jī)器人的RGB-D感知的端到端處理方案

移動(dòng)協(xié)作機(jī)器人的RGB-D感知的端到端處理方案

時(shí)間:2024-02-22 10:37:14來源:3D視覺工坊

導(dǎo)語:?本文提出了一種用于具有雙目視覺的自主機(jī)器人的三維語義場景感知的端到端流程

。該流程包括實(shí)例分割、特征匹配和點(diǎn)集配準(zhǔn)。首先,利用RGB圖像進(jìn)行單視圖三維語義場景分割,將2D數(shù)據(jù)集中的常見對象類封裝為物體實(shí)例的點(diǎn)云。然后,根據(jù)RGB圖像中感興趣對象之間的匹配關(guān)鍵點(diǎn)提取兩個(gè)連續(xù)分割點(diǎn)云的3D對應(yīng)點(diǎn)。此外,利用核密度估計(jì)(KDE)估計(jì)的分布對每對3D點(diǎn)進(jìn)行加權(quán),從而在解決點(diǎn)云之間的剛性變換時(shí)給出了更少中心對應(yīng)點(diǎn)的魯棒性。最終,在7自由度雙臂Baxter機(jī)器人上測試了該流程,結(jié)果表明機(jī)器人可以成功分割對象、在移動(dòng)時(shí)注冊多個(gè)視圖并抓取目標(biāo)對象。

讀者理解:

這篇文章介紹了一種用于移動(dòng)協(xié)作機(jī)器人的RGB-D感知的端到端處理流程。該流程包括實(shí)例分割、特征匹配和對齊,旨在幫助機(jī)器人在移動(dòng)過程中理解場景并執(zhí)行操作。文章提出的方法首先對場景中感興趣的對象進(jìn)行分割,并在機(jī)器人移動(dòng)時(shí)匹配連續(xù)的RGB圖像中的特征,然后利用深度圖獲取3D對應(yīng)關(guān)系。通過統(tǒng)計(jì)加權(quán)這些3D對應(yīng)關(guān)系,使用核密度估計(jì)(KDE)進(jìn)行剛性點(diǎn)云對齊。實(shí)驗(yàn)結(jié)果表明,在實(shí)際機(jī)器人上進(jìn)行的測試中,機(jī)器人能夠成功地理解場景并抓取目標(biāo)物體,驗(yàn)證了所提出方法的有效性。文章的主要貢獻(xiàn)在于提出了一種綜合性的處理流程,為移動(dòng)機(jī)器人在復(fù)雜環(huán)境中的感知和操作提供了重要參考。

1 引言

本文介紹自我中心視覺在機(jī)器和人類視覺中的重要性,特別是在密集環(huán)境中的作用。為了改善自主機(jī)器人的操作任務(wù),需要對感興趣物體的空間信息進(jìn)行三維感知。目前的分割和配準(zhǔn)任務(wù)通常是分開進(jìn)行的,但同時(shí)部署這兩個(gè)過程會(huì)導(dǎo)致計(jì)算成本高昂。因此,本文旨在實(shí)現(xiàn)輕量級的自我中心3D分割、特征匹配和場景重建流程,以提高基于視覺的室內(nèi)移動(dòng)協(xié)作機(jī)器人的性能。已有的工作主要集中在學(xué)習(xí)圖像之間的匹配特征,但對于室內(nèi)移動(dòng)協(xié)作機(jī)器人,還需要關(guān)注感興趣對象的空間占據(jù)信息。為了填補(bǔ)先前工作的空白并改善基于視覺的移動(dòng)協(xié)作機(jī)器人的3D語義場景感知,本文提出了三項(xiàng)貢獻(xiàn):

(1)一種提取和統(tǒng)計(jì)加權(quán)3D對應(yīng)點(diǎn)以進(jìn)行剛性點(diǎn)云對準(zhǔn)的穩(wěn)健方法,

(2)一種用于具有雙目視覺的自我中心機(jī)器人的端到端分割、特征匹配和全局配準(zhǔn)流程,

(3)使用真實(shí)機(jī)器人系統(tǒng)進(jìn)行測試,以驗(yàn)證提出方法的正確性。

2 自我中心的3d對象分割

本節(jié)提出了一種算法,用于自我中心地在RGB-D幀中分割物體。該算法首先從圖像流中獲取深度圖像D和RGB圖像I,然后分割出I中的感興趣對象以獲得對象的掩碼MI。接著,對D進(jìn)行孔填充以保證結(jié)果質(zhì)量,然后與I相對齊。隨后,處理對齊深度幀Dalign的像素,以校正MI之外的深度像素,并將其轉(zhuǎn)換為PM中的點(diǎn)。最后,通過刪除深度圖像中可能由孔造成的異常值來清理PM。

3 特征檢測與匹配

本節(jié)介紹了自我中心3D物體分割中特征檢測和匹配的算法。首先,將1D位置嵌入應(yīng)用到2D域中,以提高特征提取學(xué)習(xí)過程,并設(shè)計(jì)了特征提取網(wǎng)絡(luò)。然后,利用分割掩碼提供SuperPoint每個(gè)對象的掩碼RGB圖像,以確保特征掃描區(qū)域在掩碼區(qū)域內(nèi)。接著,為兩個(gè)連續(xù)幀中的每個(gè)對應(yīng)對象創(chuàng)建相應(yīng)對象的掩碼RGB圖像,并在每對圖像上應(yīng)用重新訓(xùn)練后的SuperPoint,以提取和匹配每個(gè)對象實(shí)例內(nèi)的2D關(guān)鍵點(diǎn)。最后,聚合匹配的特征并計(jì)算點(diǎn)云之間的3D對應(yīng)關(guān)系。這一方法避免了特征在不相關(guān)對象之間的匹配,并且提高了物體實(shí)例的準(zhǔn)確性和一致性。

4 點(diǎn)云對齊與配準(zhǔn)

本節(jié)詳細(xì)介紹了點(diǎn)云對齊與配準(zhǔn)的過程,主要包括兩個(gè)關(guān)鍵步驟:3D對應(yīng)關(guān)系的重要性加權(quán)和剛性運(yùn)動(dòng)的點(diǎn)云對齊。

3D對應(yīng)關(guān)系的重要性加權(quán):

權(quán)重初始化:根據(jù)每個(gè)點(diǎn)周圍特定半徑內(nèi)的鄰近點(diǎn)數(shù)初始化該點(diǎn)的權(quán)重。

密度估計(jì):使用KDE和ISJ算法估計(jì)未知分布的密度,以獲得魯棒性。

權(quán)重更新:根據(jù)密度函數(shù)更新每個(gè)點(diǎn)的權(quán)重,以更好地表示其重要性。

剛性運(yùn)動(dòng)的點(diǎn)云對齊:

計(jì)算平移向量:計(jì)算加權(quán)質(zhì)心,用于平移點(diǎn)云。

計(jì)算旋轉(zhuǎn)矩陣:通過奇異值分解得到旋轉(zhuǎn)矩陣,用于旋轉(zhuǎn)點(diǎn)云。

定義剛性變換矩陣:將平移向量和旋轉(zhuǎn)矩陣組合成剛性變換矩陣。

點(diǎn)云對齊:應(yīng)用剛性變換矩陣,將兩個(gè)多視點(diǎn)云進(jìn)行對齊。

5 實(shí)驗(yàn)

SuperPoint with Positional Embedding的性能:在MS COCO 2014數(shù)據(jù)集上,使用2D位置嵌入重新訓(xùn)練了SuperPoint,并在MagicPoint標(biāo)記的興趣點(diǎn)上進(jìn)行了微調(diào)。通過對圖像進(jìn)行調(diào)整和增強(qiáng),如隨機(jī)亮度和對比度、高斯噪聲、陰影和運(yùn)動(dòng)模糊,訓(xùn)練了具有128維度的位置嵌入的SuperPoint。訓(xùn)練過程在NVIDIA RTX 4090 GPU上進(jìn)行了10個(gè)時(shí)期(300,000次迭代)。實(shí)驗(yàn)結(jié)果顯示,SuperPoint在HPatches數(shù)據(jù)集上表現(xiàn)出色,具有較強(qiáng)的魯棒性,尤其在亮度變化和視角變化等常見場景下。

多角度下的點(diǎn)云對齊誤差:通過在距離場景2米的平面表面上移動(dòng)攝像機(jī),包括0°(初始位置)、±10°、±20°、±30°和±45°等不同角度,計(jì)算了兩個(gè)對應(yīng)點(diǎn)集Kt?1和Kt之間的均方根誤差(RMSE)。實(shí)驗(yàn)結(jié)果表明,隨著偏移角度的增加,RMSE變大,同時(shí)證明了KDE在減小對齊誤差方面的有效性。

在Baxter機(jī)器人上的部署實(shí)驗(yàn):

實(shí)驗(yàn)設(shè)置:在Baxter機(jī)器人上安裝IntelRealSense D435i RGB-D相機(jī),并設(shè)置了一個(gè)桌子、一把椅子、一個(gè)包和兩個(gè)塑料杯的場景。

機(jī)器人移動(dòng)與多視角拍攝:Baxter先站在一個(gè)位置拍攝一個(gè)視角,然后移動(dòng)到另一個(gè)角度拍攝另一個(gè)視角,其運(yùn)動(dòng)由Dataspeed移動(dòng)底座支持,通過ROS消息進(jìn)行同步。

多視角點(diǎn)云分割與對齊:在捕獲多視角點(diǎn)云后,Baxter首先對場景中的對象進(jìn)行分割,然后匹配兩個(gè)視圖之間的3D對應(yīng)關(guān)系,最后解決了權(quán)重3D對應(yīng)關(guān)系的剛性對齊,最終獲得了對場景的理解。

靠近和抓取目標(biāo)物體:Baxter演示了使用3D語義場景感知進(jìn)行機(jī)器人抓取的可行性,當(dāng)目標(biāo)物體在機(jī)器人的工作空間內(nèi)時(shí),Baxter可以有效地抓取這些物體。

在傳統(tǒng)硬件上的時(shí)間復(fù)雜度:使用OpenVINO庫在Intel HD Graphics 4000上部署了YOLOv8n,評估了分段、關(guān)鍵點(diǎn)提取和匹配、關(guān)鍵點(diǎn)加權(quán)以及點(diǎn)云對齊等步驟的時(shí)間復(fù)雜度和運(yùn)行時(shí)間。

6 結(jié)論

本研究提出了一種用于RGB-D感知移動(dòng)協(xié)作機(jī)器人的端到端流程,包括實(shí)例分割、特征匹配和對齊。通過在實(shí)際機(jī)器人上進(jìn)行的實(shí)驗(yàn),驗(yàn)證了該方法的有效性,機(jī)器人能夠理解場景并執(zhí)行操作。


標(biāo)簽: 協(xié)作機(jī)器人

點(diǎn)贊

分享到:

上一篇:OpenAI推出Sora:AI領(lǐng)域的革...

下一篇:2023年工業(yè)視覺缺陷檢測經(jīng)驗(yàn)分享

中國傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡介|會(huì)員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

中國傳動(dòng)網(wǎng)-工業(yè)自動(dòng)化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 版權(quán)所有 粵ICP備 14004826號 | 營業(yè)執(zhí)照證書 | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號