蜜桃成熟时无删减手机在线观看,下流梗不存在的灰暗世界

人工智能(AI)系統(tǒng)使得機(jī)器人能夠以人類靈巧的方式掌握和操縱物體，現(xiàn)在，研究人員表示他們已經(jīng)開(kāi)發(fā)出一種算法，通過(guò)這種算法，機(jī)器可以自己學(xué)會(huì)走路。在Arxiv.org上發(fā)表的一份預(yù)印本論文中(“通過(guò)深度強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)走路”)，加州大學(xué)伯克利分校的科學(xué)家和谷歌人工智能(AI)研究部門之一GoogleBrain描述了一種人工智能系統(tǒng)，教“一個(gè)四足機(jī)器人來(lái)穿越熟悉和不熟悉的地形。

“深度強(qiáng)化學(xué)習(xí)可以用于自動(dòng)獲取一系列機(jī)器人任務(wù)的控制器，從而實(shí)現(xiàn)將感知輸入映射到低級(jí)別動(dòng)作的策略的端到端學(xué)習(xí)?！痹撜撐牡淖髡呓忉尩??！叭绻覀兛梢灾苯釉诂F(xiàn)實(shí)世界中從頭開(kāi)始學(xué)習(xí)運(yùn)動(dòng)步態(tài)，原則上我們就能獲得最適合每個(gè)機(jī)器人、甚至適合單個(gè)地形的控制器，潛在地實(shí)現(xiàn)更好的敏捷性、能源效率和穩(wěn)健性?！?/p>

設(shè)計(jì)挑戰(zhàn)是雙重的。強(qiáng)化學(xué)習(xí)是一種使用獎(jiǎng)勵(lì)或懲罰來(lái)驅(qū)動(dòng)代替人實(shí)現(xiàn)目標(biāo)的人工智能培訓(xùn)技術(shù)，它需要大量數(shù)據(jù)，在某些情況下需要數(shù)萬(wàn)個(gè)樣本才能獲得良好的結(jié)果。并且微調(diào)機(jī)器人系統(tǒng)的超參數(shù)——即確定其結(jié)構(gòu)的參數(shù)——通常需要多次訓(xùn)練，這可能會(huì)隨著時(shí)間的推移對(duì)腿式機(jī)器人造成傷害。

“深度強(qiáng)化學(xué)習(xí)已被廣??泛用于模擬中的學(xué)習(xí)運(yùn)動(dòng)策略，甚至將它們轉(zhuǎn)移到現(xiàn)實(shí)世界的機(jī)器人中，但由于模擬中的差異，這不可避免地導(dǎo)致性能損失，并且需要大量的手動(dòng)建模?！痹撜撐牡淖髡咧赋觯霸诂F(xiàn)實(shí)世界中使用這些算法已經(jīng)證明具有挑戰(zhàn)性?！?/p>

為了找到一種方法，用研究人員的話說(shuō)，“(使)一個(gè)系統(tǒng)在沒(méi)有模擬訓(xùn)練的情況下學(xué)習(xí)運(yùn)動(dòng)技能成為可能，他們選擇了一種稱為“最大熵RL”的強(qiáng)化學(xué)習(xí)框架(RL)。最大熵RL優(yōu)化學(xué)習(xí)策略以最大化預(yù)期回報(bào)和預(yù)期熵，或者正在處理的數(shù)據(jù)中的隨機(jī)性度量。在RL中，AI代理通過(guò)從策略中采樣動(dòng)作并接收獎(jiǎng)勵(lì)，不斷尋找最佳的行動(dòng)路徑，也就是說(shuō)，狀態(tài)和行動(dòng)的軌跡。最大熵RL激勵(lì)政策更廣泛地探索;一個(gè)參數(shù)——比如說(shuō)，溫度——確定熵對(duì)獎(jiǎng)勵(lì)的相對(duì)重要性，從而確定其隨機(jī)性。

但這并不全是積極和有效的，至少不是一開(kāi)始。因?yàn)殪睾酮?jiǎng)勵(lì)之間的權(quán)衡直接受到獎(jiǎng)勵(lì)函數(shù)的規(guī)模的影響，而獎(jiǎng)勵(lì)函數(shù)的規(guī)模又影響學(xué)習(xí)速率，所以通常必須針對(duì)每個(gè)環(huán)境調(diào)整縮放因子。研究人員的解決方案是自動(dòng)化溫度和獎(jiǎng)勵(lì)規(guī)模調(diào)整，部分是在兩個(gè)階段之間交替進(jìn)行：數(shù)據(jù)收集階段和優(yōu)化階段。

結(jié)果不言自明。在OpenAI的健身房(一個(gè)用于訓(xùn)練和測(cè)試AI代理的開(kāi)源模擬環(huán)境)進(jìn)行的實(shí)驗(yàn)中，作者的模型在四個(gè)連續(xù)運(yùn)動(dòng)任務(wù)(HalfCheetah、Ant、Walker和Minitaur)中實(shí)現(xiàn)了“幾乎相同”或比基線更好的性能。

在第二次真實(shí)世界的測(cè)試中，研究人員將他們的模型應(yīng)用于四足Minitaur，這是一種帶八個(gè)執(zhí)行器的機(jī)器人，一個(gè)測(cè)量馬達(dá)角度的馬達(dá)編碼器，以及一個(gè)測(cè)量方向和角速度的慣性測(cè)量單元(IMU)。

他們開(kāi)發(fā)了一個(gè)管道，包括(1)計(jì)算機(jī)工作站，更新神經(jīng)網(wǎng)絡(luò)，從Minitaur下載數(shù)據(jù)，并上傳最新策略;(2)在機(jī)器人上安裝NvidiaJetsonTX2執(zhí)行上述策略，收集數(shù)據(jù)，并通過(guò)以太網(wǎng)將數(shù)據(jù)上傳到工作站。經(jīng)過(guò)兩個(gè)小時(shí)160,000步的訓(xùn)練后，通過(guò)獎(jiǎng)勵(lì)前進(jìn)速度和懲罰“大角加速度”和俯仰角的算法，他們成功地訓(xùn)練Minitaur在平坦的地形上行走，越過(guò)木塊等障礙物行走，以及爬上斜坡和臺(tái)階，而這些在訓(xùn)練時(shí)間內(nèi)均未出現(xiàn)。

“據(jù)我們所知，這個(gè)實(shí)驗(yàn)是深度強(qiáng)化學(xué)習(xí)算法的第一例，這種算法可以在沒(méi)有任何模擬或訓(xùn)練的情況下，直接在現(xiàn)實(shí)世界中學(xué)習(xí)欠驅(qū)動(dòng)的四足運(yùn)動(dòng)?！毖芯咳藛T寫道。

聲明：本文為轉(zhuǎn)載類文章，如涉及版權(quán)問(wèn)題，請(qǐng)及時(shí)聯(lián)系我們刪除（QQ: 2737591964），不便之處，敬請(qǐng)諒解！