AlphaGo Zero就是一面鏡子,照見了人類經(jīng)驗的局限性

時間:2017-11-01

來源:網(wǎng)絡轉載

導語:2017年10月19日,谷歌Deepmind團隊在《自然》刊發(fā)論文《精通圍棋對弈無需借助人類知識》。

2017年10月19日,谷歌Deepmind團隊在《自然》刊發(fā)論文《精通圍棋對弈無需借助人類知識》。一款新的人工智能AlphaGoZero,從零開始學習,自己與自己對弈,不借助任何圍棋棋譜與人類經(jīng)驗,10小時左右發(fā)現(xiàn)簡單定式;15小時發(fā)現(xiàn)復雜定式;55小時左右發(fā)現(xiàn)人類頂尖高手從未用過的新定式;72小時出關。出關后以100∶0完敗AlphaGoLee(曾戰(zhàn)勝李世石),以89∶11大勝棋力更強的AlphaGoMaster。

在AlphaGo系列版本連敗人類頂尖高手之后,圍棋對弈的看頭已不在人類頂尖高手之間,也不在人工智能與人類頂尖高手之間,只在人工智能與人工智能之間了。AlphaGoZero三天的自我學習,超越了人類幾千年對圍棋知識的積累,也超越了借助于人類經(jīng)驗與大數(shù)據(jù)訓練的AlphaGoLee及Master,讓人嘆為觀止,充分揭示了人類經(jīng)驗的局限性。

有人說,AlphaGoZero橫空出世,說明“算法比大數(shù)據(jù)更重要”。這當然是對的。棋力的本質就是算法與算力。

首先,人工智能戰(zhàn)勝人類頂尖高手,是算法與算力的勝利。由于算力的限制,人類棋手采用的是局部最優(yōu)化算法,每一落子,主要考慮對周邊局面當下與后續(xù)的影響。算力優(yōu)裕的人工智能,原則上可采用全局最優(yōu)化算法,每一落子,考慮對全局當下與后續(xù)的全部影響。在絕大多數(shù)情況下,局部最優(yōu)與全局最優(yōu)的落子是一致的。但極少數(shù)情況下,局部最優(yōu)就不是全局最優(yōu),人工智能就碾壓人類頂尖高手了。

其次,用一張神經(jīng)網(wǎng)絡自我學習與訓練的人工智能,戰(zhàn)勝借助于人類經(jīng)驗與大數(shù)據(jù)訓練的人工智能,也是算法的勝利??磥?,前者才是真全局最優(yōu)化算法,因不看棋譜而免于被人類經(jīng)驗帶偏;后者只是準全局最優(yōu)化算法,算法受到了人類棋譜中的局部最優(yōu)化算法的“污染”,也就是說,人類經(jīng)驗束縛了人工智能棋力的提升。這對人類來說真是一個尷尬的事實。

由此,“圍棋的終結”那一天似乎也不遠了。圍棋對弈是在完全信息下進行的,規(guī)則也很明確,理論上存在著一盤“終極棋局”:對弈雙方下的每一步,都是全局意義上的最優(yōu)落子,也就是說,任何一方的任何一步不這樣落子是不明智的,最后就形成了“終極棋局”。

AlphaGoZero的最大意義,在于有助于我們反思人類經(jīng)驗的局限性,讓我們清醒認識到經(jīng)驗有效性的邊界在哪里,不至于以為自己的經(jīng)驗是絕對真理。人類經(jīng)驗的本質其實就是局部最優(yōu)解。你的個人經(jīng)驗就是你個人視角下的局部最優(yōu)解。

如果說在圍棋對弈中人類棋手不得不采用局部最優(yōu)化算法的原因是算力限制,那么在日常決策中人們采用局部最優(yōu)化算法的主要原因在于信息不充分、不準確。人類社會中的博弈基本都是信息不對稱下的博弈。你在對自己掌握的有限信息去粗取精、去偽存真之后做出的決策,是局限條件下最優(yōu)的決策,但并不一定等于真正對你最優(yōu)、最有利的決策。不過,要是你占有的信息盡可能全面、盡可能精確,那你的決策就會更接近于上帝全知視角下的全局最優(yōu)解。

此外,人們在決策中常犯的錯誤是只考慮短期效應,而忽視長期效應;只看到“看得見的”,而忽視“看不見的”;只看到直接的“一階效應”,而忽視“二階效應”等高階效應。這看起來也挺像“算力限制”導致的,但其實是一種“算法缺陷”,是智力上的懶惰。AlphaGoZero就不會犯這樣的錯誤,一定會考慮落子對當下與后續(xù)的全部影響。

是的,AlphaGoZero就是一面鏡子,照見了人類經(jīng)驗的局限性。

更多資訊請關注工業(yè)機器人頻道

中傳動網(wǎng)版權與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網(wǎng)聯(lián)系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0