IBM Research稱,已經(jīng)開發(fā)出了一種內(nèi)存計(jì)算新方法,可以為微軟和谷歌尋求的高性能和機(jī)器學(xué)習(xí)應(yīng)用的硬件加速器提供答案。
在近日Nature Electronics期刊上發(fā)表的一篇論文中,IBM研究人員描述了這種新的“混合精度內(nèi)存計(jì)算”方法。
IBM關(guān)注傳統(tǒng)計(jì)算體系結(jié)構(gòu)的不同看法,在這種體系結(jié)構(gòu)中,軟件需要在單獨(dú)的CPU和RAM單元之間進(jìn)行數(shù)據(jù)傳輸。
據(jù)IBM稱,這種被稱為“馮·諾依曼”的體系結(jié)構(gòu)設(shè)計(jì),為數(shù)據(jù)分析和機(jī)器學(xué)習(xí)應(yīng)用制造了一個(gè)瓶頸,這些應(yīng)用需要在處理單元和內(nèi)存單元之間進(jìn)行更大的數(shù)據(jù)傳輸。傳輸數(shù)據(jù)也是一個(gè)耗能的過程。
應(yīng)對(duì)這一挑戰(zhàn),IBM給出的一種方法是模擬相變內(nèi)存(PCM)芯片,該芯片目前還處于原型階段,500萬(wàn)個(gè)納米級(jí)PCM器件組成500×2000交叉陣列。
PCM的一個(gè)關(guān)鍵優(yōu)勢(shì)是可以處理大多數(shù)密集型數(shù)據(jù)處理,而無(wú)需將數(shù)據(jù)傳輸?shù)紺PU或GPU,這樣以更低的能量開銷實(shí)現(xiàn)更快速的處理。
IBM的PCM單元將作為CPU加速器,就像微軟用于加速Bing和加強(qiáng)機(jī)器學(xué)習(xí)的FPGA芯片一樣。
據(jù)IBM稱,研究表明在某些情況下,其PCM芯片能夠以模擬的方式進(jìn)行操作,執(zhí)行計(jì)算任務(wù),并提供與4位FPGA存儲(chǔ)器芯片相當(dāng)?shù)臏?zhǔn)確度,但能耗降低了80倍。
模擬PCM硬件并不適合高精度計(jì)算。所幸的是,數(shù)字型CPU和GPU是適合的,IBM認(rèn)為混合架構(gòu)可以實(shí)現(xiàn)更高性能、更高效率和更高精度的平衡。
這種設(shè)計(jì)將大部分處理留給內(nèi)存,然后將較輕的負(fù)載交給CPU進(jìn)行一系列的精度修正。
根據(jù)IBM蘇黎世實(shí)驗(yàn)室的電氣工程師、也是該論文的主要作者M(jìn)anuel Le Gallo稱,這種設(shè)計(jì)有助于云中的認(rèn)知計(jì)算,有助于釋放對(duì)高性能計(jì)算機(jī)的訪問。
Le Gallo表示:“憑借我們現(xiàn)在的精確度,我們可以將能耗降低到是使用高精度GPU和CPU的1/6。”
“所以我們的想法是,為了應(yīng)對(duì)模擬計(jì)算中的不精確性,我們將其與標(biāo)準(zhǔn)處理器結(jié)合起來(lái)。我們要做的是將大量計(jì)算任務(wù)轉(zhuǎn)移到PCM中,但同時(shí)得到最終的結(jié)果是精確的?!?/p>
這種技術(shù)更適合于如數(shù)字圖像識(shí)別等應(yīng)用,其中誤解少數(shù)像素并不會(huì)妨礙整體識(shí)別,此外還有一些醫(yī)療應(yīng)用。
“你可以用低精度完成大量計(jì)算——以模擬的方式,PCM會(huì)非常節(jié)能——然后使用傳統(tǒng)處理器來(lái)提高精度?!?/p>
對(duì)于只有1兆字節(jié)大小的IBM原型內(nèi)存芯片,現(xiàn)在還處于初期階段。為了適用于現(xiàn)代數(shù)據(jù)中心的規(guī)?;瘧?yīng)用,它需要達(dá)到千兆字節(jié)的內(nèi)存量級(jí),分布在數(shù)萬(wàn)億個(gè)PCM中。
盡管如此,IBM認(rèn)為可以通過構(gòu)建更大規(guī)模的PCM設(shè)備或使其中PCM并行運(yùn)行來(lái)實(shí)現(xiàn)這一目標(biāo)。