讓四足機(jī)器人自己學(xué)走路

時(shí)間:2019-01-02

來(lái)源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語(yǔ):人工智能(AI)系統(tǒng)使得機(jī)器人能夠以人類靈巧的方式掌握和操縱物體,現(xiàn)在,研究人員表示他們已經(jīng)開(kāi)發(fā)出一種算法,通過(guò)這種算法,機(jī)器可以自己學(xué)會(huì)走路。

人工智能(AI)系統(tǒng)使得機(jī)器人能夠以人類靈巧的方式掌握和操縱物體,現(xiàn)在,研究人員表示他們已經(jīng)開(kāi)發(fā)出一種算法,通過(guò)這種算法,機(jī)器可以自己學(xué)會(huì)走路。在Arxiv.org上發(fā)表的一份預(yù)印本論文中(“通過(guò)深度強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)走路”),加州大學(xué)伯克利分校的科學(xué)家和谷歌人工智能(AI)研究部門之一GoogleBrain描述了一種人工智能系統(tǒng),教“一個(gè)四足機(jī)器人來(lái)穿越熟悉和不熟悉的地形。

“深度強(qiáng)化學(xué)習(xí)可以用于自動(dòng)獲取一系列機(jī)器人任務(wù)的控制器,從而實(shí)現(xiàn)將感知輸入映射到低級(jí)別動(dòng)作的策略的端到端學(xué)習(xí)?!痹撜撐牡淖髡呓忉尩??!叭绻覀兛梢灾苯釉诂F(xiàn)實(shí)世界中從頭開(kāi)始學(xué)習(xí)運(yùn)動(dòng)步態(tài),原則上我們就能獲得最適合每個(gè)機(jī)器人、甚至適合單個(gè)地形的控制器,潛在地實(shí)現(xiàn)更好的敏捷性、能源效率和穩(wěn)健性?!?/p>

設(shè)計(jì)挑戰(zhàn)是雙重的。強(qiáng)化學(xué)習(xí)是一種使用獎(jiǎng)勵(lì)或懲罰來(lái)驅(qū)動(dòng)代替人實(shí)現(xiàn)目標(biāo)的人工智能培訓(xùn)技術(shù),它需要大量數(shù)據(jù),在某些情況下需要數(shù)萬(wàn)個(gè)樣本才能獲得良好的結(jié)果。并且微調(diào)機(jī)器人系統(tǒng)的超參數(shù)——即確定其結(jié)構(gòu)的參數(shù)——通常需要多次訓(xùn)練,這可能會(huì)隨著時(shí)間的推移對(duì)腿式機(jī)器人造成傷害。

“深度強(qiáng)化學(xué)習(xí)已被廣??泛用于模擬中的學(xué)習(xí)運(yùn)動(dòng)策略,甚至將它們轉(zhuǎn)移到現(xiàn)實(shí)世界的機(jī)器人中,但由于模擬中的差異,這不可避免地導(dǎo)致性能損失,并且需要大量的手動(dòng)建模?!痹撜撐牡淖髡咧赋觯霸诂F(xiàn)實(shí)世界中使用這些算法已經(jīng)證明具有挑戰(zhàn)性?!?/p>

為了找到一種方法,用研究人員的話說(shuō),“(使)一個(gè)系統(tǒng)在沒(méi)有模擬訓(xùn)練的情況下學(xué)習(xí)運(yùn)動(dòng)技能成為可能,他們選擇了一種稱為“最大熵RL”的強(qiáng)化學(xué)習(xí)框架(RL)。最大熵RL優(yōu)化學(xué)習(xí)策略以最大化預(yù)期回報(bào)和預(yù)期熵,或者正在處理的數(shù)據(jù)中的隨機(jī)性度量。在RL中,AI代理通過(guò)從策略中采樣動(dòng)作并接收獎(jiǎng)勵(lì),不斷尋找最佳的行動(dòng)路徑,也就是說(shuō),狀態(tài)和行動(dòng)的軌跡。最大熵RL激勵(lì)政策更廣泛地探索;一個(gè)參數(shù)——比如說(shuō),溫度——確定熵對(duì)獎(jiǎng)勵(lì)的相對(duì)重要性,從而確定其隨機(jī)性。

但這并不全是積極和有效的,至少不是一開(kāi)始。因?yàn)殪睾酮?jiǎng)勵(lì)之間的權(quán)衡直接受到獎(jiǎng)勵(lì)函數(shù)的規(guī)模的影響,而獎(jiǎng)勵(lì)函數(shù)的規(guī)模又影響學(xué)習(xí)速率,所以通常必須針對(duì)每個(gè)環(huán)境調(diào)整縮放因子。研究人員的解決方案是自動(dòng)化溫度和獎(jiǎng)勵(lì)規(guī)模調(diào)整,部分是在兩個(gè)階段之間交替進(jìn)行:數(shù)據(jù)收集階段和優(yōu)化階段。

結(jié)果不言自明。在OpenAI的健身房(一個(gè)用于訓(xùn)練和測(cè)試AI代理的開(kāi)源模擬環(huán)境)進(jìn)行的實(shí)驗(yàn)中,作者的模型在四個(gè)連續(xù)運(yùn)動(dòng)任務(wù)(HalfCheetah、Ant、Walker和Minitaur)中實(shí)現(xiàn)了“幾乎相同”或比基線更好的性能。

在第二次真實(shí)世界的測(cè)試中,研究人員將他們的模型應(yīng)用于四足Minitaur,這是一種帶八個(gè)執(zhí)行器的機(jī)器人,一個(gè)測(cè)量馬達(dá)角度的馬達(dá)編碼器,以及一個(gè)測(cè)量方向和角速度的慣性測(cè)量單元(IMU)。

他們開(kāi)發(fā)了一個(gè)管道,包括(1)計(jì)算機(jī)工作站,更新神經(jīng)網(wǎng)絡(luò),從Minitaur下載數(shù)據(jù),并上傳最新策略;(2)在機(jī)器人上安裝NvidiaJetsonTX2執(zhí)行上述策略,收集數(shù)據(jù),并通過(guò)以太網(wǎng)將數(shù)據(jù)上傳到工作站。經(jīng)過(guò)兩個(gè)小時(shí)160,000步的訓(xùn)練后,通過(guò)獎(jiǎng)勵(lì)前進(jìn)速度和懲罰“大角加速度”和俯仰角的算法,他們成功地訓(xùn)練Minitaur在平坦的地形上行走,越過(guò)木塊等障礙物行走,以及爬上斜坡和臺(tái)階,而這些在訓(xùn)練時(shí)間內(nèi)均未出現(xiàn)。

“據(jù)我們所知,這個(gè)實(shí)驗(yàn)是深度強(qiáng)化學(xué)習(xí)算法的第一例,這種算法可以在沒(méi)有任何模擬或訓(xùn)練的情況下,直接在現(xiàn)實(shí)世界中學(xué)習(xí)欠驅(qū)動(dòng)的四足運(yùn)動(dòng)?!毖芯咳藛T寫道。

聲明:本文為轉(zhuǎn)載類文章,如涉及版權(quán)問(wèn)題,請(qǐng)及時(shí)聯(lián)系我們刪除(QQ: 2737591964,不便之處,敬請(qǐng)諒解!

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

最新新聞
查看更多資訊

娓娓工業(yè)

廣州金升陽(yáng)科技有限公司

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺(jué)
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0