技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國(guó)傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 詳解機(jī)器人技術(shù)基礎(chǔ)模型

詳解機(jī)器人技術(shù)基礎(chǔ)模型

時(shí)間:2024-01-11 17:04:56來(lái)源:專(zhuān)知

導(dǎo)語(yǔ):?構(gòu)建能夠在任何環(huán)境中無(wú)縫操作、使用各種技能處理不同物體和完成多樣化任務(wù)的通用機(jī)器人,一直是人工智能領(lǐng)域的長(zhǎng)期目標(biāo)。

構(gòu)建能夠在任何環(huán)境中無(wú)縫操作、使用各種技能處理不同物體和完成多樣化任務(wù)的通用機(jī)器人,一直是人工智能領(lǐng)域的長(zhǎng)期目標(biāo)。然而,不幸的是,大多數(shù)現(xiàn)有的機(jī)器人系統(tǒng)受到限制——它們被設(shè)計(jì)用于特定任務(wù)、在特定數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在特定環(huán)境中部署。這些系統(tǒng)通常需要大量標(biāo)注數(shù)據(jù),依賴(lài)于特定任務(wù)的模型,在現(xiàn)實(shí)世界場(chǎng)景中部署時(shí)存在諸多泛化問(wèn)題,并且難以對(duì)分布變化保持魯棒性。

受到網(wǎng)絡(luò)規(guī)模大容量預(yù)訓(xùn)練模型(即基礎(chǔ)模型)在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)等研究領(lǐng)域開(kāi)放集表現(xiàn)和內(nèi)容生成能力印象深刻的啟發(fā),我們將本綜述(survey)致力于探索(i)如何將現(xiàn)有的NLP和CV領(lǐng)域的基礎(chǔ)模型應(yīng)用于機(jī)器人技術(shù)領(lǐng)域,以及(ii)專(zhuān)門(mén)針對(duì)機(jī)器人技術(shù)的基礎(chǔ)模型將會(huì)是什么樣子。我們首先概述了傳統(tǒng)機(jī)器人系統(tǒng)的構(gòu)成及其普遍適用性的基本障礙。

接著,我們建立了一個(gè)分類(lèi)體系,討論了當(dāng)前利用現(xiàn)有基礎(chǔ)模型進(jìn)行機(jī)器人技術(shù)探索和開(kāi)發(fā)針對(duì)機(jī)器人技術(shù)的模型的工作。最后,我們討論了使用基礎(chǔ)模型啟用通用機(jī)器人系統(tǒng)的關(guān)鍵挑戰(zhàn)和有前景的未來(lái)發(fā)展方向。

我們?cè)陂_(kāi)發(fā)能夠適應(yīng)不同環(huán)境并在其中運(yùn)作的自治機(jī)器人系統(tǒng)方面仍面臨許多挑戰(zhàn)。以往的機(jī)器人感知系統(tǒng)利用傳統(tǒng)深度學(xué)習(xí)方法,通常需要大量標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練監(jiān)督學(xué)習(xí)模型[1-3];與此同時(shí),為這些大型數(shù)據(jù)集構(gòu)建眾包標(biāo)記過(guò)程仍然相當(dāng)昂貴。此外,由于傳統(tǒng)監(jiān)督學(xué)習(xí)方法的泛化能力有限,訓(xùn)練出的模型通常需要精心設(shè)計(jì)的領(lǐng)域適應(yīng)技術(shù)才能將這些模型部署到特定場(chǎng)景或任務(wù)[4, 5],這往往需要進(jìn)一步的數(shù)據(jù)收集和標(biāo)記。

類(lèi)似地,傳統(tǒng)的機(jī)器人規(guī)劃和控制方法通常需要精確建模世界、自主體的動(dòng)力學(xué)和/或其他代理的行為[6-8]。這些模型針對(duì)每個(gè)特定環(huán)境或任務(wù)建立,并且在發(fā)生變化時(shí)通常需要重新構(gòu)建,暴露了它們的有限可遷移性[8];事實(shí)上,在許多情況下,構(gòu)建有效模型要么太昂貴,要么不切實(shí)際。盡管基于深度(強(qiáng)化)學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃[9, 10]和控制方法[11-14]可以幫助緩解這些問(wèn)題,但它們也仍然受到分布變化和泛化能力降低的困擾[15, 16]。  

在構(gòu)建具有泛化能力的機(jī)器人系統(tǒng)所面臨的挑戰(zhàn)的同時(shí),我們也注意到自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域的顯著進(jìn)步——引入了大型語(yǔ)言模型(LLMs)[17]用于NLP,使用擴(kuò)散模型進(jìn)行高保真圖像生成[18, 19],以及使用大容量視覺(jué)模型和視覺(jué)語(yǔ)言模型(VLMs)實(shí)現(xiàn)CV任務(wù)的零次/少次學(xué)習(xí)泛化[20-22]。

這些被稱(chēng)為“基礎(chǔ)模型”[23],或簡(jiǎn)稱(chēng)為大型預(yù)訓(xùn)練模型(LPTMS),這些大容量視覺(jué)和語(yǔ)言模型也已應(yīng)用于機(jī)器人技術(shù)領(lǐng)域[24-26],有潛力賦予機(jī)器人系統(tǒng)開(kāi)放世界的感知、任務(wù)規(guī)劃甚至運(yùn)動(dòng)控制能力。除了直接應(yīng)用現(xiàn)有的視覺(jué)和/或語(yǔ)言基礎(chǔ)模型于機(jī)器人任務(wù)之外,我們也看到了開(kāi)發(fā)更多針對(duì)機(jī)器人的特定模型的相當(dāng)潛力,例如用于操控的動(dòng)作模型[27, 28]或用于導(dǎo)航的運(yùn)動(dòng)規(guī)劃模型[29]。這些機(jī)器人基礎(chǔ)模型在不同任務(wù)甚至不同實(shí)體上顯示出了極大的泛化能力。

視覺(jué)/語(yǔ)言基礎(chǔ)模型也已直接應(yīng)用于機(jī)器人任務(wù)[30, 31],顯示了將不同機(jī)器人模塊融合為單一統(tǒng)一模型的可能性。盡管我們看到將視覺(jué)和語(yǔ)言基礎(chǔ)模型應(yīng)用于機(jī)器人任務(wù)以及開(kāi)發(fā)新的機(jī)器人基礎(chǔ)模型的有前景的應(yīng)用,但許多機(jī)器人技術(shù)的挑戰(zhàn)仍然難以企及。從實(shí)際部署的角度來(lái)看,模型通常無(wú)法復(fù)制,缺乏多實(shí)體泛化能力,或者無(wú)法準(zhǔn)確捕捉環(huán)境中可行(或可接受)的情況。此外,大多數(shù)出版物利用基于Transformer的架構(gòu),專(zhuān)注于物體和場(chǎng)景的語(yǔ)義感知、任務(wù)級(jí)規(guī)劃或控制[28];其他可能受益于跨領(lǐng)域泛化能力的機(jī)器人系統(tǒng)組成部分尚未被充分探索——例如,用于世界動(dòng)力學(xué)的基礎(chǔ)模型或可以進(jìn)行符號(hào)推理的基礎(chǔ)模型。最后,我們想強(qiáng)調(diào)需要更多大規(guī)模實(shí)際數(shù)據(jù)以及具有多樣化機(jī)器人任務(wù)的高保真模擬器。  

在本文中,我們調(diào)查了基礎(chǔ)模型在機(jī)器人技術(shù)中的應(yīng)用,并旨在理解基礎(chǔ)模型如何幫助緩解核心機(jī)器人技術(shù)挑戰(zhàn)。我們使用“機(jī)器人技術(shù)基礎(chǔ)模型”一詞來(lái)包括兩個(gè)不同的方面:(1)將現(xiàn)有的(主要是)視覺(jué)和語(yǔ)言模型應(yīng)用于機(jī)器人技術(shù),主要通過(guò)零樣本學(xué)習(xí)和情境學(xué)習(xí);以及(2)使用機(jī)器人生成的數(shù)據(jù)開(kāi)發(fā)和利用專(zhuān)門(mén)針對(duì)機(jī)器人任務(wù)的機(jī)器人基礎(chǔ)模型。我們總結(jié)了機(jī)器人技術(shù)基礎(chǔ)模型論文的方法論,并對(duì)我們調(diào)查的論文的實(shí)驗(yàn)結(jié)果進(jìn)行了元分析。  

本文的主要組成部分在圖1中進(jìn)行了總結(jié)。本文的整體結(jié)構(gòu)如圖2所述。在第2節(jié)中,我們簡(jiǎn)要介紹了基礎(chǔ)模型時(shí)代之前的機(jī)器人研究,并討論了基礎(chǔ)模型的基礎(chǔ)知識(shí)。在第3節(jié)中,我們列舉了機(jī)器人研究中的挑戰(zhàn),并討論了基礎(chǔ)模型可能如何緩解這些挑戰(zhàn)。在第4節(jié)中,我們總結(jié)了機(jī)器人技術(shù)中基礎(chǔ)模型的當(dāng)前研究現(xiàn)狀。最后,在第6節(jié)中,我們提出了可能對(duì)這一研究交叉領(lǐng)域產(chǎn)生重大影響的潛在研究方向。  

機(jī)器人技術(shù)中的挑戰(zhàn) 在本節(jié)中,我們總結(jié)了典型機(jī)器人系統(tǒng)中各種模塊面臨的五個(gè)核心挑戰(zhàn),每個(gè)挑戰(zhàn)都在以下小節(jié)中詳細(xì)介紹。盡管類(lèi)似的挑戰(zhàn)已在先前文獻(xiàn)中討論過(guò)(見(jiàn)第1.2節(jié)),但本節(jié)主要關(guān)注那些可能通過(guò)適當(dāng)利用基礎(chǔ)模型來(lái)解決的挑戰(zhàn),這一點(diǎn)從當(dāng)前研究結(jié)果中得到了證據(jù)。我們還在本節(jié)中描述了分類(lèi)法,以便在圖3中更容易回顧。  

用于機(jī)器人技術(shù)的基礎(chǔ)模型在本節(jié)中,我們重點(diǎn)討論在機(jī)器人技術(shù)中零次學(xué)習(xí)應(yīng)用視覺(jué)和語(yǔ)言基礎(chǔ)模型。這主要包括用于機(jī)器人感知的VLMs的零樣本學(xué)習(xí)部署,在任務(wù)級(jí)別和運(yùn)動(dòng)級(jí)別規(guī)劃以及動(dòng)作生成方面的LLMs的情境學(xué)習(xí)。我們?cè)趫D6中展示了一些代表性的工作。  

機(jī)器人基礎(chǔ)模型(RFMs)

隨著包含真實(shí)機(jī)器人的狀態(tài)-動(dòng)作對(duì)的機(jī)器人數(shù)據(jù)集數(shù)量的增加,機(jī)器人基礎(chǔ)模型(RFMs)的類(lèi)別也變得越來(lái)越可行[28, 29, 176]。這些模型的特點(diǎn)是使用機(jī)器人數(shù)據(jù)來(lái)訓(xùn)練,以解決機(jī)器人任務(wù)。在本小節(jié)中,我們總結(jié)并討論了不同類(lèi)型的RFMs。我們首先介紹能夠在第2.1節(jié)中的一個(gè)機(jī)器人模塊內(nèi)執(zhí)行一組任務(wù)的RFMs,這被定義為單一目的的機(jī)器人基礎(chǔ)模型。例如,一個(gè)能夠生成用于控制機(jī)器人的低級(jí)動(dòng)作的RFM,或一個(gè)能夠生成更高級(jí)別運(yùn)動(dòng)規(guī)劃的模型。之后,我們介紹能夠在多個(gè)機(jī)器人模塊中執(zhí)行任務(wù)的RFMs,因此它們是能夠執(zhí)行感知、控制甚至非機(jī)器人任務(wù)的通用模型[30, 31]。

如何利用基礎(chǔ)模型解決機(jī)器人技術(shù)挑戰(zhàn) 

在第3節(jié)中,我們列出了機(jī)器人技術(shù)中的五個(gè)主要挑戰(zhàn)。在本節(jié)中,我們總結(jié)了基礎(chǔ)模型——無(wú)論是視覺(jué)和語(yǔ)言模型還是機(jī)器人基礎(chǔ)模型——如何以更有組織的方式幫助解決這些挑戰(zhàn)。    所有與視覺(jué)信息相關(guān)的基礎(chǔ)模型,如VFMs、VLMs和VGMs,都用于機(jī)器人技術(shù)中的感知模塊。而LLMs則更加多功能,可以應(yīng)用于規(guī)劃和控制領(lǐng)域。我們還在這里列出了RFMs,這些機(jī)器人基礎(chǔ)模型通常用于規(guī)劃和動(dòng)作生成模塊。我們?cè)诒?中總結(jié)了基礎(chǔ)模型如何解決前述的機(jī)器人技術(shù)挑戰(zhàn)。從這個(gè)表中我們可以看出,所有基礎(chǔ)模型都擅長(zhǎng)于各種機(jī)器人模塊任務(wù)的泛化。此外,LLMs尤其擅長(zhǎng)于任務(wù)規(guī)范化。另一方面,RFMs擅長(zhǎng)處理動(dòng)力學(xué)模型的挑戰(zhàn),因?yàn)榇蠖鄶?shù)RFMs是無(wú)模型方法。 

對(duì)于機(jī)器人感知,泛化能力和模型的挑戰(zhàn)是相互聯(lián)系的,因?yàn)?,如果感知模型已?jīng)具有非常好的泛化能力,那么就沒(méi)有必要為了領(lǐng)域適應(yīng)或額外的微調(diào)而獲取更多數(shù)據(jù)。此外,解決安全挑戰(zhàn)的呼聲在很大程度上缺失,我們將在第6節(jié)中討論這個(gè)特殊問(wèn)題。用于泛化的基礎(chǔ)模型 零次泛化是當(dāng)前基礎(chǔ)模型的最顯著特征之一。機(jī)器人技術(shù)幾乎在所有方面和模塊都受益于基礎(chǔ)模型的泛化能力。首先,VLM和VFM作為默認(rèn)的機(jī)器人感知模型在感知方面的泛化能力是一個(gè)很好的選擇。第二方面是任務(wù)級(jí)規(guī)劃的泛化能力,由LLMs[24]生成任務(wù)計(jì)劃的細(xì)節(jié)。第三個(gè)方面是運(yùn)動(dòng)規(guī)劃和控制方面的泛化能力,通過(guò)利用RFMs的力量。 

用于數(shù)據(jù)稀缺的基礎(chǔ)模型 

基礎(chǔ)模型在解決機(jī)器人技術(shù)中的數(shù)據(jù)稀缺問(wèn)題上至關(guān)重要。它們?yōu)槭褂米钌俚奶囟〝?shù)據(jù)學(xué)習(xí)和適應(yīng)新任務(wù)提供了堅(jiān)實(shí)的基礎(chǔ)。例如,最近的方法利用基礎(chǔ)模型生成數(shù)據(jù)來(lái)幫助訓(xùn)練機(jī)器人,如機(jī)器人軌跡[236]和仿真[237]。這些模型擅長(zhǎng)從少量示例中學(xué)習(xí),使機(jī)器人能夠使用有限的數(shù)據(jù)快速適應(yīng)新任務(wù)。從這個(gè)角度來(lái)看,解決數(shù)據(jù)稀缺問(wèn)題相當(dāng)于解決機(jī)器人技術(shù)中的泛化能力問(wèn)題。除此之外,基礎(chǔ)模型——尤其是LLMs和VGMs——可以生成用于訓(xùn)練感知模塊[238](見(jiàn)上面的4.1.5節(jié))和任務(wù)規(guī)范化[239]的機(jī)器人技術(shù)數(shù)據(jù)集。   

用于減輕模型要求的基礎(chǔ)模型

正如第3.3節(jié)所討論的,建立或?qū)W習(xí)一個(gè)模型——無(wú)論是環(huán)境地圖、世界模型還是環(huán)境動(dòng)力學(xué)模型——對(duì)于解決機(jī)器人技術(shù)問(wèn)題至關(guān)重要,尤其是在運(yùn)動(dòng)規(guī)劃和控制方面。然而,基礎(chǔ)模型展現(xiàn)的強(qiáng)大的少/零次泛化能力可能會(huì)打破這一要求。這包括使用LLMs生成任務(wù)計(jì)劃[24],使用RFMs學(xué)習(xí)無(wú)模型的端到端控制策略[27, 256]等。   

用于任務(wù)規(guī)范化的基礎(chǔ)模型 

任務(wù)規(guī)范化作為語(yǔ)言提示[24, 27, 28],目標(biāo)圖像[181, 272],展示任務(wù)的人類(lèi)視頻[273, 274],獎(jiǎng)勵(lì)[26, 182],軌跡粗略草圖[239],政策草圖[275]和手繪圖像[276],使目標(biāo)規(guī)范化以一種更自然、類(lèi)人的格式實(shí)現(xiàn)。多模態(tài)基礎(chǔ)模型允許用戶(hù)不僅指定目標(biāo),還可以通過(guò)對(duì)話(huà)解決歧義。最近在理解人機(jī)交互領(lǐng)域中的信任和意圖識(shí)別方面的工作開(kāi)辟了我們理解人類(lèi)如何使用顯式和隱式線(xiàn)索傳達(dá)任務(wù)規(guī)范化的新范式。雖然取得了顯著進(jìn)展,但最近在LLMs提示工程方面的工作表明,即使只有一個(gè)模態(tài),也很難生成相關(guān)輸出。視覺(jué)-語(yǔ)言模型被證明在任務(wù)規(guī)范化方面尤其擅長(zhǎng),顯示出解決機(jī)器人技術(shù)問(wèn)題的潛力。擴(kuò)展基于視覺(jué)-語(yǔ)言的任務(wù)規(guī)范化的理念,崔等人[181]探索了使用更自然的輸入,如從互聯(lián)網(wǎng)獲取的圖像,實(shí)現(xiàn)多模態(tài)任務(wù)規(guī)范化的方法。Brohan等人[27]進(jìn)一步探索了從任務(wù)無(wú)關(guān)數(shù)據(jù)進(jìn)行零次轉(zhuǎn)移的這一理念,提出了一個(gè)具有擴(kuò)展模型屬性的新型模型類(lèi)。該模型將高維輸入和輸出,包括攝像頭圖像、指令和馬達(dá)命令編碼成緊湊的令牌表示,以實(shí)現(xiàn)移動(dòng)操縱器的實(shí)時(shí)控制。   

用于不確定性和安全的基礎(chǔ)模型 

盡管不確定性和安全是機(jī)器人技術(shù)中的關(guān)鍵問(wèn)題,但使用機(jī)器人技術(shù)基礎(chǔ)模型解決這些問(wèn)題仍然未被充分探索?,F(xiàn)有的工作,如KNOWNO[187],提出了一種測(cè)量和對(duì)齊基于LLM的任務(wù)規(guī)劃器不確定性的框架。最近在鏈?zhǔn)剿伎继崾綶277]、開(kāi)放詞匯學(xué)習(xí)[278]和LLMs中幻覺(jué)識(shí)別[279]方面的進(jìn)展可能為解決這些挑戰(zhàn)開(kāi)辟新途徑。


標(biāo)簽: 機(jī)器人

點(diǎn)贊

分享到:

上一篇:什么是光伏黑硅技術(shù)?

下一篇:人工智能大模型在工業(yè)機(jī)器人...

中國(guó)傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。