燒錢爭“最大”AI模型,真的有必要嗎?

時間:2022-03-03

來源:

導(dǎo)語:人類能夠高效使用工具,逐漸變得聰明,很大程度上要?dú)w功于對生的拇指。不過,假如我們在演化過程中額外獲得了第二對對生的手指,使用工具的能力也未必會變得更好——一只手掌上有一個拇指,就已經(jīng)足夠了,再多也沒用。

  可對神經(jīng)網(wǎng)絡(luò)而言,就是另一回事了。機(jī)器學(xué)習(xí)理論不斷進(jìn)步,隨之膨脹的,是神經(jīng)網(wǎng)絡(luò)的規(guī)模。在研究和實(shí)踐中,人工智能專家們發(fā)現(xiàn),大大增加神經(jīng)網(wǎng)絡(luò)的參數(shù)量,使其超過數(shù)據(jù)數(shù)量的過程,也就是“過參數(shù)化”(overparameterization),能夠提高訓(xùn)練的效率,加強(qiáng)網(wǎng)絡(luò)的泛化能力。

  但是,美國麻省理工學(xué)院(MIT)的研究者 Neil Thompson 在一項(xiàng)研究中指出,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的發(fā)展令人工智能革命成為可能,但其不斷增長的成本值得警惕。當(dāng)規(guī)模的膨脹成為了一股無法阻擋的潮流,同步驟增的金錢成本,能源消耗甚至碳排放,都成為了學(xué)界和業(yè)界無法忽視的問題。

  作為目前被認(rèn)為最成功的預(yù)訓(xùn)練語言模型之一,美國人工智能公司 OpenAI 在 2020 年發(fā)布的 GPT-3 的參數(shù)量達(dá)到了 1750 億,是它的前身 GPT-2 的一百多倍。GPT-3 能夠根據(jù)簡單的創(chuàng)意寫出完整的小說,把晦澀艱深的法律條文用平易近人的語言闡述,也能回答從柴米油鹽到天文地理的提問,表現(xiàn)遠(yuǎn)超此前的任何自然語言處理模型。

  不過,與卓越表現(xiàn)相伴的,是高昂的代價——GPT-3 訓(xùn)練的硬件和電力成本高達(dá) 1200 萬美元(約 7500 萬人民幣)。根據(jù)一項(xiàng) 2021 年 4 月發(fā)表在預(yù)印本文獻(xiàn)庫 arXiv 的研究(未經(jīng)同行評審),GPT-3 在訓(xùn)練過程中消耗了 1287 兆瓦時電力,產(chǎn)生了 552 噸的碳排放,相當(dāng)于一輛汽車 120 年的排放量。

  中國的研發(fā)團(tuán)隊在大規(guī)模預(yù)訓(xùn)練的道路上也沒有落后。智源研究院 2020 年發(fā)布的悟道 2.0 模型已經(jīng)擁有 1.75 萬億個參數(shù),相當(dāng)于 GPT-3 的 10 倍。阿里達(dá)摩院 2021 年發(fā)布的 M6 模型參數(shù)量更是超過了 10 萬億。雖然專門為神經(jīng)網(wǎng)絡(luò)運(yùn)算研發(fā)的芯片,如 GPU(圖形處理單元)和 TPU(張量處理單元)已經(jīng)大大抵消了算力需求的增長,但神經(jīng)網(wǎng)絡(luò)訓(xùn)練整體成本的增長仍然愈演愈烈。

  一、高維空間里,過參數(shù)化把神經(jīng)網(wǎng)絡(luò)“打磨光滑”

  事實(shí)證明,過參數(shù)化是有效的,尤其在提高大模型的表現(xiàn)上,是極為成功的。在 12 月 NeurIPS 會議上發(fā)布的一項(xiàng)研究中,美國華盛頓微軟研究院(Microsoft Research)的 Sébastien Bubeck 和斯坦福大學(xué)(Stanford University)的 Mark Sellke 就為過參數(shù)化成功背后的奧秘提供了最為基礎(chǔ)的解釋。他們的研究表明,神經(jīng)網(wǎng)絡(luò)必須比傳統(tǒng)預(yù)期大得多,才能在訓(xùn)練和應(yīng)用中避免一些非常基本的問題。

  舉例來說,神經(jīng)網(wǎng)絡(luò)常常被用于識別圖像中的對象。圖像是有成千上萬個像素構(gòu)成的,每個像素都可以用一個或幾個數(shù)值來表示。這些自由數(shù)值的組合在數(shù)學(xué)上相當(dāng)于高維空間中一個點(diǎn)的坐標(biāo),而數(shù)值的總數(shù)也就是這個高維空間的維數(shù)。

  數(shù)學(xué)理論早已表明,要根據(jù) n 個數(shù)據(jù)點(diǎn)擬合出一條曲線,我們就需要一個同樣包含 n 個參數(shù)的函數(shù)。在 1980 年代神經(jīng)網(wǎng)絡(luò)首次出現(xiàn)時,人們也認(rèn)為同樣的規(guī)律適用于神經(jīng)網(wǎng)絡(luò)——無論數(shù)據(jù)的維數(shù)是多少,用來擬合 n 個數(shù)據(jù)點(diǎn)的神經(jīng)網(wǎng)絡(luò),應(yīng)該只需要 n 個參數(shù)就能完成任務(wù)。然而事情并非如此,如今我們搭建的神經(jīng)網(wǎng)絡(luò)中,參數(shù)的數(shù)量往往遠(yuǎn)超訓(xùn)練樣本的數(shù)量。難道數(shù)學(xué)教科書需要重寫了嗎?

  也不盡然。神經(jīng)網(wǎng)絡(luò)的工作并不只是簡單的擬合幾個數(shù)據(jù)點(diǎn)。還有一種非常重要的能力,是對神經(jīng)網(wǎng)絡(luò)來說至關(guān)重要,卻時常缺失的——魯棒性,也就是神經(jīng)網(wǎng)絡(luò)在面對微小變化時的穩(wěn)定性。例如,我們可以很容易地教會神經(jīng)網(wǎng)絡(luò)識別長頸鹿的圖片,但假如神經(jīng)網(wǎng)絡(luò)的魯棒性欠佳,它很有在面對與最典型的長頸鹿有細(xì)微差別的圖片時識別錯誤,比如把黑白的長頸鹿圖片識別成斑馬,“指鹿為馬”。

  在實(shí)踐中,研究者們發(fā)現(xiàn),通過過參數(shù)化,神經(jīng)網(wǎng)絡(luò)的魯棒性得到了加強(qiáng)。而這項(xiàng)新的分析提出,擬合相同數(shù)據(jù)點(diǎn)所得的曲線會隨著使用的參數(shù)數(shù)量增加而變得平滑,神經(jīng)網(wǎng)絡(luò)也有著相似的效應(yīng)——神經(jīng)網(wǎng)絡(luò)的魯棒性與簡單曲線的平滑度是相似的,我們?nèi)匀豢梢杂闷矫嫔系那€來做類比:當(dāng)一個函數(shù)曲線較為平滑時,如果 x 坐標(biāo)稍微偏移,曲線上點(diǎn)的 y 坐標(biāo)也不會劇烈變化。但如果函數(shù)波動明顯,y 坐標(biāo)就會隨著 x 坐標(biāo)的細(xì)微偏移而劇烈變化,從長頸鹿變成斑馬,甚至變成倉鼠都有可能。

  Bubeck 和 Sellke 的數(shù)學(xué)證明表明,要平滑地擬合一個 d 維空間中的 n 個數(shù)據(jù)點(diǎn),不僅需要與數(shù)據(jù)點(diǎn)數(shù)量相同的 n 個參數(shù),要需要 nd 個額外的參數(shù)才行。這項(xiàng)研究告訴我們,如果希望一個神經(jīng)網(wǎng)絡(luò)能夠可靠地掌握訓(xùn)練數(shù)據(jù)的規(guī)律,過參數(shù)化不只是提高訓(xùn)練速度的催化劑,而首先是保證網(wǎng)絡(luò)魯棒性的先決條件。

  過參數(shù)化成功地保證了大模型在處理高維數(shù)據(jù)和泛化任務(wù)時的表現(xiàn),成為了幾乎所有語音處理模型的選擇。GPT、BERT、悟道,這些模型的卓越表現(xiàn)都與數(shù)以億計的參數(shù)密不可分。不過,海量參數(shù)的亮眼表現(xiàn),也成為了大模型大算力野蠻生長的推動力。模型規(guī)模的擴(kuò)大,是否可能已經(jīng)超出了合理的范圍呢?有分析顯示,從 2012 年起,深度學(xué)習(xí)的訓(xùn)練成本每隔幾個月就會翻一番,從 2013 年到 2019 年,用于訓(xùn)練深度學(xué)習(xí)模型的計算量在 6 年內(nèi)增加了 300 000 倍。隨著參數(shù)量和訓(xùn)練成本的進(jìn)一步幾何級增長,疑問漸漸產(chǎn)生:神經(jīng)網(wǎng)絡(luò)參數(shù)規(guī)模的增長,必然保證性能和效率的持續(xù)增長嗎?對單一指標(biāo)的關(guān)注,是否忽視了經(jīng)濟(jì)、環(huán)境和社會成本?這些成本,有可能被壓縮嗎?

  二、從更大到更省,也是一條路

  雖然神經(jīng)網(wǎng)絡(luò)的規(guī)模的膨脹至少在未來數(shù)年是不可阻擋的潮流,我們?nèi)杂斜匾?,也有能力控制它們的能耗和排放。許多學(xué)者指出,目前的學(xué)界和業(yè)界,尤其是科技巨頭公司,研發(fā)神經(jīng)網(wǎng)絡(luò)的模式有過于粗放之嫌,在降低消耗方面還有很大提升空間。

  從算法本身出發(fā)來解決算法的缺點(diǎn),是最直接的手段之一。自從上世紀(jì)人工智能誕生以來,在相同任務(wù)上提高效率降低成本的算法研究就一直是研究者們最關(guān)注的方向之一。就像導(dǎo)語中提到的例子,人類棋手不會對棋盤上每一個可以落子的點(diǎn)都進(jìn)行計算,而早期的電腦棋手卻不知道如何初步篩選出少量的選點(diǎn)。完成相同任務(wù)時,人腦的效率遠(yuǎn)遠(yuǎn)高于人工智能的一個原因就是,人類不會關(guān)注對象的每一個細(xì)節(jié),早期的模型卻會對每一個數(shù)值、每一個像素都一樣仔細(xì)徹底地進(jìn)行分析。為什么模型不能舍棄不重要的細(xì)節(jié)來提高效率?舉例來說,近幾年誕生的“注意力模型”(attention model)就通過類比人類的“注意力”特點(diǎn),在自然語言處理上取得了很好的效果——通過對輸入進(jìn)行賦權(quán)處理,網(wǎng)絡(luò)每次只專注于分析復(fù)雜輸入的特定方面,一個接著一個,最終完成對整個數(shù)據(jù)集的處理。在這個框架下,模型能夠有選擇地關(guān)注輸入最有價值的部分,從而“學(xué)到”它們之間的關(guān)聯(lián)。這也是 GPT-3 和 BERT 等近年嶄露頭角的預(yù)訓(xùn)練模型的基礎(chǔ)之一。實(shí)際上,無論一個算法或模型是否是為了節(jié)能減排而研發(fā),只要它切實(shí)提高了模型的效率,就一定能在相同的準(zhǔn)確性等指標(biāo)下讓成本得以降低。

  這些預(yù)訓(xùn)練模型的發(fā)展,也未必要完全依賴參數(shù)規(guī)模的增長。此前有研究者推測,正在研發(fā)和訓(xùn)練中,并有望很快面世的 GPT-4 的參數(shù)規(guī)模將比 GPT-3 更大,可能增至 100 萬億。但 OpenAI 的首席執(zhí)行官 Sam Altman 近期透露,GPT-4 的參數(shù)規(guī)模并不會比 GPT-3 大。在已經(jīng)相當(dāng)巨大的參數(shù)規(guī)?;A(chǔ)上,依靠進(jìn)一步擴(kuò)大規(guī)模來獲得性能提升的邊際效益實(shí)在太低。與之相比,Altman 傾向于通過改進(jìn)數(shù)據(jù)算法和微調(diào)(fine-tuning),在不改變參數(shù)規(guī)模的情況下適當(dāng)投入更多計算資源,來改善神經(jīng)網(wǎng)絡(luò)的表現(xiàn)。

  他指出,模型的參數(shù)越多,所能完成的任務(wù)就越復(fù)雜,但在特定任務(wù)上,模型的有效性未必與大小相關(guān)。例如,近期美國谷歌公司的一項(xiàng)研究就利用一個遠(yuǎn)小于 GPT-3 的模型——微調(diào)語言網(wǎng)絡(luò)(FLAN)在許多相當(dāng)有挑戰(zhàn)性的基準(zhǔn)測試中獲得了比 GPT-3 更好的結(jié)果。

  三、可持續(xù)的綠色 AI,正在路上

  專門針對神經(jīng)網(wǎng)絡(luò)場景設(shè)計的芯片是降低 AI 研發(fā)和部署成本的另一個關(guān)鍵。由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量并行的浮點(diǎn)運(yùn)算和讀寫,CPU 難以勝任,目前主要使用 GPU 或 TPU 進(jìn)行。英特爾(Intel),英偉達(dá)(Nvidia),谷歌等公司都在設(shè)計和生產(chǎn)這些芯片。

  而除了芯片設(shè)計制造技術(shù)的進(jìn)步以外,全新類型的芯片也可能很快誕生,為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和部署帶來變局。MIT 教授 Vivienne Sze 在著作《深度神經(jīng)網(wǎng)絡(luò)的高效處理》(Efficient Processing of Deep Neural Networks)就提出了一種可行的構(gòu)想:通過構(gòu)建一種多層網(wǎng)格,允許芯片上的網(wǎng)絡(luò)自適應(yīng)地重用數(shù)據(jù),并根據(jù)不同場合深度學(xué)習(xí)模型的需要對帶寬進(jìn)行調(diào)整,最大限度地降低數(shù)據(jù)傳輸成本并保持高吞吐量。根據(jù)這一構(gòu)想,Sze 與 MIT 教授、Nvidia 研究員 Joel Emer 合作,設(shè)計了一款名為 Eyeriss 2 的芯片,據(jù)稱在處理各類深度學(xué)習(xí)模型時的能效比普通 GPU 高出了 10 倍。

  通過政策的激勵和管控,更合理地安排人工智能研發(fā)和部署,也是管控成本,提高整體效率的重要手段。例如,如果人工智能模型使用主要來自可再生能源的電力進(jìn)行訓(xùn)練,其碳足跡就會相應(yīng)降低;在可再生能源密集的區(qū)域,可再生電力的時間分布不均勻,在電力冗余的時段進(jìn)行訓(xùn)練,也是提高人工智能產(chǎn)業(yè)能源利用效率的有效方法。

  中國 2022 年 2 月正式啟動的“東數(shù)西算”工程就被學(xué)界認(rèn)為是促進(jìn)產(chǎn)業(yè)綠色發(fā)展的強(qiáng)力手段。由于東部資源日趨緊張,大規(guī)模發(fā)展計算中心難以為繼,而西部可再生能源充沛,可以很好地承接?xùn)|部算力需求。華為、百度、騰訊等眾多科技公司都響應(yīng)了這一工程,在西部建立了計算或數(shù)據(jù)中心。“東數(shù)西算”所提升的不只是人工智能訓(xùn)練,而是整個算力密集產(chǎn)業(yè)的能效,不僅能立竿見影地降低研發(fā)部署成本,更有希望讓整個行業(yè)的投資變得更加有效,推動?xùn)|西部協(xié)調(diào)發(fā)展。

  另外,提到了新能源,就不得不提人工智能發(fā)展與能源轉(zhuǎn)型的雙向促進(jìn)作用??稍偕履茉吹拈_發(fā)顯然能夠降低包括人工智能在內(nèi)的許多產(chǎn)業(yè)的能源成本,而人工智能的發(fā)展,也將助力可再生能源的消納,構(gòu)建更完善的電力體系。風(fēng)電、光伏等綠色能源近年來快速發(fā)展,但由于波動性、隨機(jī)性、反調(diào)峰等特征,并網(wǎng)難、消納率的問題難以克服,大規(guī)模并網(wǎng)甚至可能影響電網(wǎng)的安全穩(wěn)定運(yùn)行,導(dǎo)致一些地方出現(xiàn)了“棄風(fēng)”、“棄光”等現(xiàn)象,可再生能源利用率不高。人工智能技術(shù)的應(yīng)用,將有效提升電網(wǎng)等能源系統(tǒng)消納多樣化電源和協(xié)調(diào)多能源的能力,實(shí)現(xiàn)電力系統(tǒng)的安全、高效、穩(wěn)定運(yùn)行??稍偕茉串a(chǎn)業(yè)和人工智能技術(shù)互相促進(jìn)的正反饋,將會是未來幾年兩者發(fā)展的一大驅(qū)動力。

  算法研究者、硬件開發(fā)者和政策制定者都正在實(shí)現(xiàn)“綠色 AI”的道路上努力著。但這些硬件和軟件支持,終究只是支持。過于關(guān)注準(zhǔn)確性等性能指標(biāo),而以犧牲速度和模型大小等效率指標(biāo)為代價的觀念和評價體系,普遍存在于整個人工智能領(lǐng)域。這樣的評價觀念亟待轉(zhuǎn)變。畢竟模型做出來,不只是為了在學(xué)術(shù)期刊和會議上攀比的,更多時候是為了轉(zhuǎn)化為應(yīng)用,服務(wù)業(yè)界的,而任何高能耗高排放的應(yīng)用產(chǎn)品,都是不符合時代要求的。只有認(rèn)識到這一點(diǎn),才能真正讓“綠色 AI”像今天的“綠色化學(xué)”一樣,從文獻(xiàn)里走出來,走進(jìn)每一個實(shí)驗(yàn)室,走進(jìn)每一家公司,走進(jìn)每個人的生活。


AI
中傳動網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運(yùn)動控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0