搞黄动漫,暖暖直播日本在线观看中文,枫与铃

【盤點(diǎn)AI芯片全新黑科技】許多在AI芯片領(lǐng)域來自學(xué)術(shù)界和來自工業(yè)界的項(xiàng)目，試圖挑戰(zhàn)CPU和GPU。這些項(xiàng)目大體可以分為兩類，一類是基于傳統(tǒng)的數(shù)字處理器模型，但是在處理器架構(gòu)上加以改良，以提高算力以及能效比；第二類則是另辟蹊徑，使用了與傳統(tǒng)處理器完全不一樣的方法來執(zhí)行計(jì)算，從而在一些領(lǐng)域中獲得遠(yuǎn)高于傳統(tǒng)處理器的性能。今天我們?yōu)榇蠹規(guī)淼氖堑诙惣夹g(shù)的總結(jié)，我們預(yù)期在第二類技術(shù)中會(huì)有一些能經(jīng)歷時(shí)間的考驗(yàn)，最終成為主流技術(shù)。

隨著大數(shù)據(jù)和深度學(xué)習(xí)得到越來越多應(yīng)用，對于底層硬件和芯片也提出了新的要求。與傳統(tǒng)的處理器強(qiáng)調(diào)“處理能力”不同，大數(shù)據(jù)和深度學(xué)習(xí)應(yīng)用強(qiáng)調(diào)的往往是“算力”以及“能效比”。由于大數(shù)據(jù)和深度學(xué)習(xí)應(yīng)用算法中的特征提取和處理使用的都往往是實(shí)打?qū)嵉挠?jì)算，因此需要高算力的芯片以期在盡可能短的時(shí)間里完成計(jì)算。另一方面，能效比也是重要指標(biāo)。能效比指的是完成計(jì)算所需要的能量，能效比越好則完成相同計(jì)算消耗的能量越小。

對于終端芯片，越來越多的數(shù)據(jù)由于數(shù)據(jù)隱私、網(wǎng)絡(luò)傳輸帶寬和處理延遲的問題無法傳到云端數(shù)據(jù)中心完成計(jì)算，這也就需要終端芯片能在終端完成計(jì)算；同時(shí)終端設(shè)備的電池容量往往有限，因此終端芯片在完成計(jì)算的同時(shí)不能消耗太大能量，也就是需要很好的能效比。對于云端數(shù)據(jù)中心的芯片，同樣也需要很好的能效比，因?yàn)樯岢杀臼菙?shù)據(jù)中心的重要開銷，因此需要芯片散熱不能太大。

在大數(shù)據(jù)和深度學(xué)習(xí)應(yīng)用中，數(shù)據(jù)間往往都是獨(dú)立的，因此可以并行計(jì)算。傳統(tǒng)的CPU并行計(jì)算能力有限，因此難以實(shí)現(xiàn)算力的需求。GPU雖然有很高的算力（10TOPS數(shù)量級）而且在數(shù)據(jù)中心已經(jīng)得到了應(yīng)用，但是其功耗也很大（幾百瓦），而且其架構(gòu)決定了它無法做到終端需要較低功耗（如100mW以下）的場景。同時(shí)，即使在數(shù)據(jù)中心領(lǐng)域，因?yàn)镚PU設(shè)計(jì)的初衷是為了圖像渲染而并非大數(shù)據(jù)運(yùn)算，因此也存在很大的改善空間。

因此，我們看到了許多在AI芯片領(lǐng)域來自學(xué)術(shù)界和來自工業(yè)界的項(xiàng)目，試圖挑戰(zhàn)CPU和GPU。這些項(xiàng)目大體可以分為兩類，一類是基于傳統(tǒng)的數(shù)字處理器模型，但是在處理器架構(gòu)上加以改良，以提高算力以及能效比；第二類則是另辟蹊徑，使用了與傳統(tǒng)處理器完全不一樣的方法來執(zhí)行計(jì)算，從而在一些領(lǐng)域中獲得遠(yuǎn)高于傳統(tǒng)處理器的性能。今天我們?yōu)榇蠹規(guī)淼氖堑诙惣夹g(shù)的總結(jié)，我們預(yù)期在第二類技術(shù)中會(huì)有一些能經(jīng)歷時(shí)間的考驗(yàn)，最終成為主流技術(shù)。

神經(jīng)擬態(tài)計(jì)算

神經(jīng)擬態(tài)技術(shù)（neuromorphic）事實(shí)上源遠(yuǎn)流長，上世紀(jì)八九十年代就由加州理工的電路大師CarverMead提出。當(dāng)時(shí)Mead教授注意到MOS器件中電荷流動(dòng)的現(xiàn)象和人體神經(jīng)元的放電現(xiàn)象有類似的地方，因此提出了用MOS管模擬神經(jīng)元以組成神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算，稱之為“神經(jīng)擬態(tài)”。

需要注意的是，神經(jīng)擬態(tài)中的神經(jīng)網(wǎng)絡(luò)和現(xiàn)在深度學(xué)習(xí)算法中的神經(jīng)網(wǎng)絡(luò)略有不同。神經(jīng)擬態(tài)電路中的神經(jīng)網(wǎng)絡(luò)是對于生物神經(jīng)元和突觸的高度模擬，包括了神經(jīng)電位改變、發(fā)射脈沖等過程，該過程既可以用異步數(shù)字電路實(shí)現(xiàn)，又可以用混合信號電路實(shí)現(xiàn)；而深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)是對于生物學(xué)中神經(jīng)組織的抽象數(shù)學(xué)模擬，僅僅描繪了其電位變化的統(tǒng)計(jì)學(xué)特性而不會(huì)去具體描繪其充放電過程。然而，這個(gè)充放電過程卻可能是為什么人腦如此節(jié)省能量的一個(gè)關(guān)鍵。人腦中復(fù)雜的神經(jīng)網(wǎng)絡(luò)能實(shí)現(xiàn)極其復(fù)雜的推理認(rèn)知過程，然而其功耗卻遠(yuǎn)小于一個(gè)GPU。

2017年5月美國橡樹嶺國家實(shí)驗(yàn)室發(fā)表了一篇重要的神經(jīng)擬態(tài)研究綜述，應(yīng)當(dāng)說目前人們對于神經(jīng)擬態(tài)的研究還處于初步階段，許多神經(jīng)擬態(tài)架構(gòu)的潛力還沒有被人們發(fā)現(xiàn)，同時(shí)如何訓(xùn)練神經(jīng)擬態(tài)電路也是一個(gè)重要的挑戰(zhàn)。從現(xiàn)在的研究來看，人們發(fā)現(xiàn)神經(jīng)擬態(tài)的神經(jīng)元在不被激活的情況下功耗較低，因此可以實(shí)現(xiàn)較低的平均功耗，這是一個(gè)重要的優(yōu)勢。

舉例來說，當(dāng)我們部署一套攝像頭加人工智能系統(tǒng)來識別是否有人進(jìn)入攝像頭視野時(shí)，往往很多時(shí)間并沒有人出現(xiàn)在視野內(nèi)。在這種情況下，使用傳統(tǒng)的深度學(xué)習(xí)算法無論攝像頭事業(yè)內(nèi)情況如何都需要完成同樣的計(jì)算，因此功耗保持恒定；而如果使用神經(jīng)擬態(tài)芯片則神經(jīng)元僅僅在有人進(jìn)入攝像頭事業(yè)時(shí)被激活，而在平時(shí)沒有人進(jìn)入視野時(shí)神經(jīng)元處于待機(jī)狀態(tài)功耗很低，因此其平均功耗可以遠(yuǎn)低于傳統(tǒng)深度學(xué)習(xí)芯片。

換句話說，神經(jīng)擬態(tài)電路的能效比可以遠(yuǎn)高于傳統(tǒng)GPU／CPU芯片。除此之外，使用在終端的低功耗神經(jīng)擬態(tài)芯片還能完成在線學(xué)習(xí)，而使用在終端的傳統(tǒng)深度學(xué)習(xí)推理加速芯片往往沒有在線學(xué)習(xí)的能力。這僅僅是神經(jīng)擬態(tài)電路的一些好處，神經(jīng)擬態(tài)電路的其他潛力還等待人們?nèi)ネ诰颉?/p>

神經(jīng)擬態(tài)電路芯片的潛力也是一些大公司開始布局的原因。IBM和Intel都推出了自己的神經(jīng)擬態(tài)芯片（IBM和TrueNorth和Intel的Loihi），可以實(shí)現(xiàn)非常高的能效比。我們預(yù)期在未來看到更多的神經(jīng)擬態(tài)電路芯片發(fā)布，能更多挖掘神經(jīng)擬態(tài)的潛力。

光電計(jì)算

硅光子技術(shù)目前在數(shù)據(jù)中心和5G的高速數(shù)據(jù)傳輸中獲得了越來越多的應(yīng)用。除此之外，硅光子還可以用來以超低功耗直接加速深度學(xué)習(xí)計(jì)算。

2017年，MIT的MarinSolijacic教授和其研究組在《自然·光子學(xué)》期刊上發(fā)表了一篇使用光學(xué)器件加速深度學(xué)習(xí)計(jì)算的論文。在深度學(xué)習(xí)中，絕大部分計(jì)算都可以歸化為矩陣運(yùn)算（這也是GPU用來做深度學(xué)習(xí)的原理），而實(shí)際應(yīng)用中的矩陣都可以用SVD分解分解成幾個(gè)特征矩陣的乘積。一旦使用SVD分解，則兩個(gè)矩陣相乘可以使用光學(xué)器件（相移器，分光器，衰減器和馬赫-曾德干涉儀）來實(shí)現(xiàn)。

更重要的是，兩個(gè)矩陣相乘的過程可以轉(zhuǎn)化為兩束光的干涉，因此深度學(xué)習(xí)的計(jì)算可以以光速完成而且理論功耗為零！該論文提出的設(shè)計(jì)就是首先把深度學(xué)習(xí)的兩個(gè)輸入調(diào)制到兩束光上面，然后讓兩束光在光子芯片的器件上完成SVD分解和干涉相乘，最后再把光信號轉(zhuǎn)化為數(shù)字信號讀出結(jié)果。最后，這些光器件都可以集成到同一塊硅光子芯片上，從而實(shí)現(xiàn)高性能光計(jì)算模組。

MIT的光模塊用于計(jì)算深度學(xué)習(xí)

如前所述，一旦使用光干涉來實(shí)現(xiàn)深度學(xué)習(xí)計(jì)算，其計(jì)算速度就變成了光速，此外矩陣計(jì)算的功耗就變成了0，因此一旦能把光調(diào)制、光信號讀出等光信號處理和接口模塊的性能和功耗做好，整體系統(tǒng)的性能和能效比就能快速提升。MIT的光計(jì)算團(tuán)隊(duì)孵化出了初創(chuàng)公司Lightelligence，目前已經(jīng)完成A輪融資，光電子用于深度學(xué)習(xí)的前景讓我們共同拭目以待。

內(nèi)存內(nèi)計(jì)算

傳統(tǒng)的AI加速器幾乎都是基于馮諾伊曼架構(gòu)，即內(nèi)存訪問和計(jì)算是分開的。馮諾伊曼架構(gòu)的問題是內(nèi)存訪問，因?yàn)閮?nèi)存訪問的功耗和延遲等問題都很難降下來，因此內(nèi)存成為了處理器性能和功耗的瓶頸，也即所謂的“內(nèi)存墻”。

為了解決內(nèi)存墻問題，不少學(xué)者提出了內(nèi)存內(nèi)計(jì)算的概念，這種概念在今年ISSCC上更是擁有了一個(gè)專門的session，可見學(xué)界對于這個(gè)方向還是很認(rèn)可的。最著名的研究當(dāng)屬M(fèi)ITAnanthaChandrakasan組。AnanthaChandrakasan在芯片領(lǐng)域可謂是鼎鼎大名，是數(shù)字電路經(jīng)典教科書《DigitalIntegratedCircuits:ADesignPerspective》的作者之一，同時(shí)也是低功耗數(shù)字電路設(shè)計(jì)、UWB系統(tǒng)等多個(gè)領(lǐng)域的先驅(qū)者，基本每年Chandrakasan組在ISSCC都會(huì)至少有一篇論文發(fā)表。今年ISSCC上Chandrakasan組發(fā)表的內(nèi)存內(nèi)計(jì)算論文針對的是權(quán)重壓縮至1-bit的神經(jīng)網(wǎng)絡(luò)，當(dāng)權(quán)重僅僅為1-bit的時(shí)候，卷積就可以約化成多個(gè)數(shù)據(jù)的平均，而求平均值使用經(jīng)典的DAC中常用的電荷平均方法可以輕易實(shí)現(xiàn)。

因此，該內(nèi)存中計(jì)算的論文實(shí)質(zhì)上是在片上SRAM上接了一個(gè)類似DAC中電荷平均的電路，在內(nèi)存內(nèi)直接實(shí)現(xiàn)模擬計(jì)算來求卷積，從而不用再需要處理器和內(nèi)存之間耗費(fèi)大量時(shí)間和能量移動(dòng)數(shù)據(jù)。計(jì)算后的結(jié)果使用ADC可以再次轉(zhuǎn)化為數(shù)字信號。

相比傳統(tǒng)的數(shù)字電路AI加速器，使用內(nèi)存內(nèi)計(jì)算加模擬計(jì)算的電路可以把能效比提高60倍以上，顯示出了極大的潛力。當(dāng)然，現(xiàn)在該電路還只能針對1-bit權(quán)重的網(wǎng)絡(luò)，未來如何把內(nèi)存內(nèi)計(jì)算推廣到更多應(yīng)用場景，讓我們拭目以待。

量子計(jì)算

量子計(jì)算是真正顛覆性的范式——當(dāng)然前提是需要先能把量子計(jì)算機(jī)制造出來！

量子計(jì)算和經(jīng)典計(jì)算最大的不同在于，量子計(jì)算使用的是量子態(tài)。不同的量子態(tài)之間是可以互相線性疊加的，因此一個(gè)量子比特在測量前可以同時(shí)處于多個(gè)態(tài)的疊加中。而量子計(jì)算可以同時(shí)對多個(gè)疊加態(tài)進(jìn)行操作，因此相當(dāng)于做大量平行計(jì)算。

現(xiàn)在量子計(jì)算還處于非常早期研究階段，目前只有少數(shù)量子算法可以利用量子特性實(shí)現(xiàn)指數(shù)級的加速，所謂“量子霸權(quán)”就是指在某個(gè)特定算法可以制造出相應(yīng)的量子計(jì)算機(jī)使運(yùn)行速度超過經(jīng)典計(jì)算機(jī)。那么，量子計(jì)算如何加速人工智能呢？首先，目前正在積極研究量子版本的線性代數(shù)算法，有望實(shí)現(xiàn)指數(shù)級加速，而AI算法中許多計(jì)算的基礎(chǔ)正是線性代數(shù)，因此一旦線性代數(shù)的量子版算法開發(fā)完成就可以大大加速人工智能計(jì)算。另外，以D-Wave為代表的量子退火算法有望能加速最優(yōu)化問題，而人工智能訓(xùn)練的一個(gè)最重要問題其實(shí)就是求最優(yōu)化解。因此，量子計(jì)算有望能加速人工智能。

谷歌和UCSB聯(lián)合研發(fā)的20量子比特芯片

目前量子計(jì)算芯片有許多實(shí)現(xiàn)方式，包括工作在超低溫下的離子阱和超導(dǎo)電路以及工作在常溫的非線性光器件。應(yīng)該說這些芯片目前還在很初期的階段，雖然有些芯片已經(jīng)能實(shí)現(xiàn)很多量子比特，但是量子退相干時(shí)間和量子門保真度仍然是性能的瓶頸。量子計(jì)算進(jìn)入實(shí)用還有很長的路要走，但是一旦成功將會(huì)成為顛覆式的發(fā)展，這也是谷歌、IBM和微軟等巨頭都在積極布局量子計(jì)算的原因。

本文介紹了一些全新的人工智能芯片技術(shù)，包括神經(jīng)擬態(tài)、光電計(jì)算、內(nèi)存內(nèi)計(jì)算和量子計(jì)算。傳統(tǒng)基于馮諾伊曼架構(gòu)的人工智能加速器芯片存在內(nèi)存墻等各種限制，我們有望看到這些新技術(shù)能在幾年后正式登上舞臺得到廣泛應(yīng)用。