妻子全集在线观看,1980美国禁忌hd中字

　　可對神經(jīng)網(wǎng)絡(luò)而言，就是另一回事了。機(jī)器學(xué)習(xí)理論不斷進(jìn)步，隨之膨脹的，是神經(jīng)網(wǎng)絡(luò)的規(guī)模。在研究和實(shí)踐中，人工智能專家們發(fā)現(xiàn)，大大增加神經(jīng)網(wǎng)絡(luò)的參數(shù)量，使其超過數(shù)據(jù)數(shù)量的過程，也就是“過參數(shù)化”(overparameterization)，能夠提高訓(xùn)練的效率，加強(qiáng)網(wǎng)絡(luò)的泛化能力。

　　但是，美國麻省理工學(xué)院(MIT)的研究者 Neil Thompson 在一項(xiàng)研究中指出，深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的發(fā)展令人工智能革命成為可能，但其不斷增長的成本值得警惕。當(dāng)規(guī)模的膨脹成為了一股無法阻擋的潮流，同步驟增的金錢成本，能源消耗甚至碳排放，都成為了學(xué)界和業(yè)界無法忽視的問題。

　　作為目前被認(rèn)為最成功的預(yù)訓(xùn)練語言模型之一，美國人工智能公司 OpenAI 在 2020 年發(fā)布的 GPT-3 的參數(shù)量達(dá)到了 1750 億，是它的前身 GPT-2 的一百多倍。GPT-3 能夠根據(jù)簡單的創(chuàng)意寫出完整的小說，把晦澀艱深的法律條文用平易近人的語言闡述，也能回答從柴米油鹽到天文地理的提問，表現(xiàn)遠(yuǎn)超此前的任何自然語言處理模型。

　　不過，與卓越表現(xiàn)相伴的，是高昂的代價——GPT-3 訓(xùn)練的硬件和電力成本高達(dá) 1200 萬美元(約 7500 萬人民幣)。根據(jù)一項(xiàng) 2021 年 4 月發(fā)表在預(yù)印本文獻(xiàn)庫 arXiv 的研究(未經(jīng)同行評審)，GPT-3 在訓(xùn)練過程中消耗了 1287 兆瓦時電力，產(chǎn)生了 552 噸的碳排放，相當(dāng)于一輛汽車 120 年的排放量。

　　中國的研發(fā)團(tuán)隊在大規(guī)模預(yù)訓(xùn)練的道路上也沒有落后。智源研究院 2020 年發(fā)布的悟道 2.0 模型已經(jīng)擁有 1.75 萬億個參數(shù)，相當(dāng)于 GPT-3 的 10 倍。阿里達(dá)摩院 2021 年發(fā)布的 M6 模型參數(shù)量更是超過了 10 萬億。雖然專門為神經(jīng)網(wǎng)絡(luò)運(yùn)算研發(fā)的芯片，如 GPU(圖形處理單元)和 TPU(張量處理單元)已經(jīng)大大抵消了算力需求的增長，但神經(jīng)網(wǎng)絡(luò)訓(xùn)練整體成本的增長仍然愈演愈烈。

　　一、高維空間里，過參數(shù)化把神經(jīng)網(wǎng)絡(luò)“打磨光滑”

　　事實(shí)證明，過參數(shù)化是有效的，尤其在提高大模型的表現(xiàn)上，是極為成功的。在 12 月 NeurIPS 會議上發(fā)布的一項(xiàng)研究中，美國華盛頓微軟研究院(Microsoft Research)的 Sébastien Bubeck 和斯坦福大學(xué)(Stanford University)的 Mark Sellke 就為過參數(shù)化成功背后的奧秘提供了最為基礎(chǔ)的解釋。他們的研究表明，神經(jīng)網(wǎng)絡(luò)必須比傳統(tǒng)預(yù)期大得多，才能在訓(xùn)練和應(yīng)用中避免一些非常基本的問題。

　　舉例來說，神經(jīng)網(wǎng)絡(luò)常常被用于識別圖像中的對象。圖像是有成千上萬個像素構(gòu)成的，每個像素都可以用一個或幾個數(shù)值來表示。這些自由數(shù)值的組合在數(shù)學(xué)上相當(dāng)于高維空間中一個點(diǎn)的坐標(biāo)，而數(shù)值的總數(shù)也就是這個高維空間的維數(shù)。

　　數(shù)學(xué)理論早已表明，要根據(jù) n 個數(shù)據(jù)點(diǎn)擬合出一條曲線，我們就需要一個同樣包含 n 個參數(shù)的函數(shù)。在 1980 年代神經(jīng)網(wǎng)絡(luò)首次出現(xiàn)時，人們也認(rèn)為同樣的規(guī)律適用于神經(jīng)網(wǎng)絡(luò)——無論數(shù)據(jù)的維數(shù)是多少，用來擬合 n 個數(shù)據(jù)點(diǎn)的神經(jīng)網(wǎng)絡(luò)，應(yīng)該只需要 n 個參數(shù)就能完成任務(wù)。然而事情并非如此，如今我們搭建的神經(jīng)網(wǎng)絡(luò)中，參數(shù)的數(shù)量往往遠(yuǎn)超訓(xùn)練樣本的數(shù)量。難道數(shù)學(xué)教科書需要重寫了嗎?

　　也不盡然。神經(jīng)網(wǎng)絡(luò)的工作并不只是簡單的擬合幾個數(shù)據(jù)點(diǎn)。還有一種非常重要的能力，是對神經(jīng)網(wǎng)絡(luò)來說至關(guān)重要，卻時常缺失的——魯棒性，也就是神經(jīng)網(wǎng)絡(luò)在面對微小變化時的穩(wěn)定性。例如，我們可以很容易地教會神經(jīng)網(wǎng)絡(luò)識別長頸鹿的圖片，但假如神經(jīng)網(wǎng)絡(luò)的魯棒性欠佳，它很有在面對與最典型的長頸鹿有細(xì)微差別的圖片時識別錯誤，比如把黑白的長頸鹿圖片識別成斑馬，“指鹿為馬”。

　　在實(shí)踐中，研究者們發(fā)現(xiàn)，通過過參數(shù)化，神經(jīng)網(wǎng)絡(luò)的魯棒性得到了加強(qiáng)。而這項(xiàng)新的分析提出，擬合相同數(shù)據(jù)點(diǎn)所得的曲線會隨著使用的參數(shù)數(shù)量增加而變得平滑，神經(jīng)網(wǎng)絡(luò)也有著相似的效應(yīng)——神經(jīng)網(wǎng)絡(luò)的魯棒性與簡單曲線的平滑度是相似的，我們?nèi)匀豢梢杂闷矫嫔系那€來做類比：當(dāng)一個函數(shù)曲線較為平滑時，如果 x 坐標(biāo)稍微偏移，曲線上點(diǎn)的 y 坐標(biāo)也不會劇烈變化。但如果函數(shù)波動明顯，y 坐標(biāo)就會隨著 x 坐標(biāo)的細(xì)微偏移而劇烈變化，從長頸鹿變成斑馬，甚至變成倉鼠都有可能。

　　Bubeck 和 Sellke 的數(shù)學(xué)證明表明，要平滑地擬合一個 d 維空間中的 n 個數(shù)據(jù)點(diǎn)，不僅需要與數(shù)據(jù)點(diǎn)數(shù)量相同的 n 個參數(shù)，要需要 nd 個額外的參數(shù)才行。這項(xiàng)研究告訴我們，如果希望一個神經(jīng)網(wǎng)絡(luò)能夠可靠地掌握訓(xùn)練數(shù)據(jù)的規(guī)律，過參數(shù)化不只是提高訓(xùn)練速度的催化劑，而首先是保證網(wǎng)絡(luò)魯棒性的先決條件。

　　過參數(shù)化成功地保證了大模型在處理高維數(shù)據(jù)和泛化任務(wù)時的表現(xiàn)，成為了幾乎所有語音處理模型的選擇。GPT、BERT、悟道，這些模型的卓越表現(xiàn)都與數(shù)以億計的參數(shù)密不可分。不過，海量參數(shù)的亮眼表現(xiàn)，也成為了大模型大算力野蠻生長的推動力。模型規(guī)模的擴(kuò)大，是否可能已經(jīng)超出了合理的范圍呢?有分析顯示，從 2012 年起，深度學(xué)習(xí)的訓(xùn)練成本每隔幾個月就會翻一番，從 2013 年到 2019 年，用于訓(xùn)練深度學(xué)習(xí)模型的計算量在 6 年內(nèi)增加了 300 000 倍。隨著參數(shù)量和訓(xùn)練成本的進(jìn)一步幾何級增長，疑問漸漸產(chǎn)生：神經(jīng)網(wǎng)絡(luò)參數(shù)規(guī)模的增長，必然保證性能和效率的持續(xù)增長嗎?對單一指標(biāo)的關(guān)注，是否忽視了經(jīng)濟(jì)、環(huán)境和社會成本?這些成本，有可能被壓縮嗎?

　　二、從更大到更省，也是一條路

　　雖然神經(jīng)網(wǎng)絡(luò)的規(guī)模的膨脹至少在未來數(shù)年是不可阻擋的潮流，我們?nèi)杂斜匾?，也有能力控制它們的能耗和排放。許多學(xué)者指出，目前的學(xué)界和業(yè)界，尤其是科技巨頭公司，研發(fā)神經(jīng)網(wǎng)絡(luò)的模式有過于粗放之嫌，在降低消耗方面還有很大提升空間。

　　從算法本身出發(fā)來解決算法的缺點(diǎn)，是最直接的手段之一。自從上世紀(jì)人工智能誕生以來，在相同任務(wù)上提高效率降低成本的算法研究就一直是研究者們最關(guān)注的方向之一。就像導(dǎo)語中提到的例子，人類棋手不會對棋盤上每一個可以落子的點(diǎn)都進(jìn)行計算，而早期的電腦棋手卻不知道如何初步篩選出少量的選點(diǎn)。完成相同任務(wù)時，人腦的效率遠(yuǎn)遠(yuǎn)高于人工智能的一個原因就是，人類不會關(guān)注對象的每一個細(xì)節(jié)，早期的模型卻會對每一個數(shù)值、每一個像素都一樣仔細(xì)徹底地進(jìn)行分析。為什么模型不能舍棄不重要的細(xì)節(jié)來提高效率?舉例來說，近幾年誕生的“注意力模型”(attention model)就通過類比人類的“注意力”特點(diǎn)，在自然語言處理上取得了很好的效果——通過對輸入進(jìn)行賦權(quán)處理，網(wǎng)絡(luò)每次只專注于分析復(fù)雜輸入的特定方面，一個接著一個，最終完成對整個數(shù)據(jù)集的處理。在這個框架下，模型能夠有選擇地關(guān)注輸入最有價值的部分，從而“學(xué)到”它們之間的關(guān)聯(lián)。這也是 GPT-3 和 BERT 等近年嶄露頭角的預(yù)訓(xùn)練模型的基礎(chǔ)之一。實(shí)際上，無論一個算法或模型是否是為了節(jié)能減排而研發(fā)，只要它切實(shí)提高了模型的效率，就一定能在相同的準(zhǔn)確性等指標(biāo)下讓成本得以降低。

　　這些預(yù)訓(xùn)練模型的發(fā)展，也未必要完全依賴參數(shù)規(guī)模的增長。此前有研究者推測，正在研發(fā)和訓(xùn)練中，并有望很快面世的 GPT-4 的參數(shù)規(guī)模將比 GPT-3 更大，可能增至 100 萬億。但 OpenAI 的首席執(zhí)行官 Sam Altman 近期透露，GPT-4 的參數(shù)規(guī)模并不會比 GPT-3 大。在已經(jīng)相當(dāng)巨大的參數(shù)規(guī)?；A(chǔ)上，依靠進(jìn)一步擴(kuò)大規(guī)模來獲得性能提升的邊際效益實(shí)在太低。與之相比，Altman 傾向于通過改進(jìn)數(shù)據(jù)算法和微調(diào)(fine-tuning)，在不改變參數(shù)規(guī)模的情況下適當(dāng)投入更多計算資源，來改善神經(jīng)網(wǎng)絡(luò)的表現(xiàn)。

　　他指出，模型的參數(shù)越多，所能完成的任務(wù)就越復(fù)雜，但在特定任務(wù)上，模型的有效性未必與大小相關(guān)。例如，近期美國谷歌公司的一項(xiàng)研究就利用一個遠(yuǎn)小于 GPT-3 的模型——微調(diào)語言網(wǎng)絡(luò)(FLAN)在許多相當(dāng)有挑戰(zhàn)性的基準(zhǔn)測試中獲得了比 GPT-3 更好的結(jié)果。

　　三、可持續(xù)的綠色 AI，正在路上

　　專門針對神經(jīng)網(wǎng)絡(luò)場景設(shè)計的芯片是降低 AI 研發(fā)和部署成本的另一個關(guān)鍵。由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量并行的浮點(diǎn)運(yùn)算和讀寫，CPU 難以勝任，目前主要使用 GPU 或 TPU 進(jìn)行。英特爾(Intel)，英偉達(dá)(Nvidia)，谷歌等公司都在設(shè)計和生產(chǎn)這些芯片。

　　而除了芯片設(shè)計制造技術(shù)的進(jìn)步以外，全新類型的芯片也可能很快誕生，為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和部署帶來變局。MIT 教授 Vivienne Sze 在著作《深度神經(jīng)網(wǎng)絡(luò)的高效處理》(Efficient Processing of Deep Neural Networks)就提出了一種可行的構(gòu)想：通過構(gòu)建一種多層網(wǎng)格，允許芯片上的網(wǎng)絡(luò)自適應(yīng)地重用數(shù)據(jù)，并根據(jù)不同場合深度學(xué)習(xí)模型的需要對帶寬進(jìn)行調(diào)整，最大限度地降低數(shù)據(jù)傳輸成本并保持高吞吐量。根據(jù)這一構(gòu)想，Sze 與 MIT 教授、Nvidia 研究員 Joel Emer 合作，設(shè)計了一款名為 Eyeriss 2 的芯片，據(jù)稱在處理各類深度學(xué)習(xí)模型時的能效比普通 GPU 高出了 10 倍。

　　通過政策的激勵和管控，更合理地安排人工智能研發(fā)和部署，也是管控成本，提高整體效率的重要手段。例如，如果人工智能模型使用主要來自可再生能源的電力進(jìn)行訓(xùn)練，其碳足跡就會相應(yīng)降低;在可再生能源密集的區(qū)域，可再生電力的時間分布不均勻，在電力冗余的時段進(jìn)行訓(xùn)練，也是提高人工智能產(chǎn)業(yè)能源利用效率的有效方法。

　　中國 2022 年 2 月正式啟動的“東數(shù)西算”工程就被學(xué)界認(rèn)為是促進(jìn)產(chǎn)業(yè)綠色發(fā)展的強(qiáng)力手段。由于東部資源日趨緊張，大規(guī)模發(fā)展計算中心難以為繼，而西部可再生能源充沛，可以很好地承接?xùn)|部算力需求。華為、百度、騰訊等眾多科技公司都響應(yīng)了這一工程，在西部建立了計算或數(shù)據(jù)中心。“東數(shù)西算”所提升的不只是人工智能訓(xùn)練，而是整個算力密集產(chǎn)業(yè)的能效，不僅能立竿見影地降低研發(fā)部署成本，更有希望讓整個行業(yè)的投資變得更加有效，推動?xùn)|西部協(xié)調(diào)發(fā)展。

　　另外，提到了新能源，就不得不提人工智能發(fā)展與能源轉(zhuǎn)型的雙向促進(jìn)作用?？稍偕履茉吹拈_發(fā)顯然能夠降低包括人工智能在內(nèi)的許多產(chǎn)業(yè)的能源成本，而人工智能的發(fā)展，也將助力可再生能源的消納，構(gòu)建更完善的電力體系。風(fēng)電、光伏等綠色能源近年來快速發(fā)展，但由于波動性、隨機(jī)性、反調(diào)峰等特征，并網(wǎng)難、消納率的問題難以克服，大規(guī)模并網(wǎng)甚至可能影響電網(wǎng)的安全穩(wěn)定運(yùn)行，導(dǎo)致一些地方出現(xiàn)了“棄風(fēng)”、“棄光”等現(xiàn)象，可再生能源利用率不高。人工智能技術(shù)的應(yīng)用，將有效提升電網(wǎng)等能源系統(tǒng)消納多樣化電源和協(xié)調(diào)多能源的能力，實(shí)現(xiàn)電力系統(tǒng)的安全、高效、穩(wěn)定運(yùn)行?？稍偕茉串a(chǎn)業(yè)和人工智能技術(shù)互相促進(jìn)的正反饋，將會是未來幾年兩者發(fā)展的一大驅(qū)動力。

　　算法研究者、硬件開發(fā)者和政策制定者都正在實(shí)現(xiàn)“綠色 AI”的道路上努力著。但這些硬件和軟件支持，終究只是支持。過于關(guān)注準(zhǔn)確性等性能指標(biāo)，而以犧牲速度和模型大小等效率指標(biāo)為代價的觀念和評價體系，普遍存在于整個人工智能領(lǐng)域。這樣的評價觀念亟待轉(zhuǎn)變。畢竟模型做出來，不只是為了在學(xué)術(shù)期刊和會議上攀比的，更多時候是為了轉(zhuǎn)化為應(yīng)用，服務(wù)業(yè)界的，而任何高能耗高排放的應(yīng)用產(chǎn)品，都是不符合時代要求的。只有認(rèn)識到這一點(diǎn)，才能真正讓“綠色 AI”像今天的“綠色化學(xué)”一樣，從文獻(xiàn)里走出來，走進(jìn)每一個實(shí)驗(yàn)室，走進(jìn)每一家公司，走進(jìn)每個人的生活。