【中國傳動網(wǎng) 行業(yè)動態(tài)】 據(jù)外媒報道,來自Nvidia的研究人員已經(jīng)攻克了一段時間來應(yīng)對這一挑戰(zhàn),但是訓練這些算法仍然很困難。本周在蘇黎世的機器人學習會議上,一支由Nvidia研究人員組成的研究小組展示了一種可以提供解決方案的新型深度學習系統(tǒng)。
通過使用合成圖像訓練計算機視覺算法,該團隊設(shè)法繞過了復雜的,勞動量密集的準備攝影圖像訓練的過程。最重要的是,通過特定的合成圖像組合,Nvidia團隊已經(jīng)訓練了一種算法,通過在標準基準的若干對象上進行對象姿態(tài)估計,第一次僅用合成數(shù)據(jù)訓練的算法擊敗了在網(wǎng)絡(luò)上對真實圖像進行訓練。這將使機器人的訓練算法更容易。
Nvidia的首席機器人研究員StanBirchfield向ZDNet解釋說:“使用合成數(shù)據(jù),我們可以生成幾乎無限量的標簽,而且基本上是免費的?!?/p>
“最終,我們要做的就是讓一個人在短時間內(nèi)教會一個機器人完成一項新任務(wù),”Birchfield說。這將擴大機器人在各種環(huán)境中幫助人們的可能性,包括工廠,家庭或醫(yī)療保健機構(gòu)。
計算機視覺研究的困難和復雜性,決定了在這個領(lǐng)域還需要做更多的工作。雖然研究人員在這一領(lǐng)域取得了重大進展,但他們還需針對固定數(shù)據(jù)集測試他們的算法?!岸@種方法并不能100%轉(zhuǎn)化為現(xiàn)實世界環(huán)境和機器人系統(tǒng)所需計算數(shù)據(jù),”Birchfield說,“我們向人們展示了一個系統(tǒng),不僅可以在特定數(shù)據(jù)集上展示出良好的定量結(jié)果,而且還可以在機器人系統(tǒng)的環(huán)境中運行。”
Nvidia團隊會將標準RGB攝像機安裝到機器人上,并通過該算法使機器人能夠查看,拾取和移動圖像。
研究人員使用NvidiaTeslaV100GPU在DGX站上訓練網(wǎng)絡(luò),使用cuDNN加速的深度PyTorch。他們使用Nvidia開發(fā)的自定義插件為虛幻引擎生成合成數(shù)據(jù)。
過去,合成數(shù)據(jù)不足以用于訓練計算機視覺算法,因為計算機生成的圖像看起來并不真實。
“直到最近,大約一年左右,可以嘗試制作看起來越來越逼真的圖像,”Birchfield解釋道?!把芯咳藛T發(fā)現(xiàn)的問題是,為了使圖像更逼真,他們不得不雇用藝術(shù)家,并且不得不花費大量時間來制作場景,使其看起來與現(xiàn)實世界完全一樣。這減少了變化的數(shù)量。你可以模擬一個特定的房間,但不能包含所有房間。