英偉達Blackwell可支持10萬億參數(shù)模型AI訓練,實時大語言模型推理

時間:2024-09-05

來源:電子發(fā)燒友

導語:英偉達Blackwell是通用計算全棧矩陣的終極解決方案,由多個英偉達芯片組成,包括Blackwell GPU、Grace CPU、BlueField數(shù)據(jù)處理單元、ConnectX網(wǎng)絡(luò)接口卡、NVLink交換機、Spectrum以太網(wǎng)交換機和Quantum InfiniBand交換機。

  在近日的Hot Chips 2024大會上,英偉達公布了下一代GPU架構(gòu)Blackwell的更多細節(jié)信息,以及未來的產(chǎn)品路線圖。

  英偉達Blackwell是通用計算全棧矩陣的終極解決方案,由多個英偉達芯片組成,包括Blackwell GPU、Grace CPU、BlueField數(shù)據(jù)處理單元、ConnectX網(wǎng)絡(luò)接口卡、NVLink交換機、Spectrum以太網(wǎng)交換機和Quantum InfiniBand交換機。

  英偉達稱,Blackwell擁有6項革命性技術(shù),可支持多達10萬億參數(shù)的模型進行AI訓練和實時大語言模型(LLM)推理。

  NVIDIA Blackwell 的技術(shù)特點

  NVIDIA Blackwell 架構(gòu)是NVIDIA于2024年3月在NVIDIA GTC大會上發(fā)布的全新架構(gòu),是NVIDIA繼Hopper架構(gòu)之后推出的全新架構(gòu),旨在推動生成式AI和加速計算領(lǐng)域的發(fā)展。Blackwell架構(gòu)擁有六項革命性技術(shù),這些技術(shù)共同構(gòu)成了其強大的計算能力和高效性。

  一、它是全球最強大的芯片,擁有2080億個晶體管,這確保了芯片具有極高的計算能力和復雜性。它采用臺積電4納米工藝制造,提高了芯片的集成度,降低了功耗和發(fā)熱量。配備192GB的HBM3E顯存,極大提升了芯片的數(shù)據(jù)處理能力和效率。

  第二代Transformer引擎,結(jié)合Blackwell Tensor Core技術(shù)和TensorRT-LLM及NeMo Megatron框架中的英偉達先進動態(tài)范圍管理算法,Blackwell通過新的4位浮點AI支持雙倍的計算和模型大小推理能力。

  第五代NVLink,為每個GPU提供了突破性的1.8TB/s雙向吞吐量,確保最復雜LLM之間多達576個GPU之間的無縫高速通信。

  四、RAS引擎,Blackwell支持的GPU包含一個專用引擎,實現(xiàn)可靠性、可用性和服務(wù)性。此外,Blackwell架構(gòu)還增加了芯片級功能,利用基于AI的預防性維護進行診斷和預測可靠性問題,從而延長系統(tǒng)正常運行時間并提高大規(guī)模部署AI的彈性。

  五、安全人工智能,先進的機密計算功能可在不影響性能的情況下保護AI模型和客戶數(shù)據(jù),并支持新的本機接口加密協(xié)議,進一步增強了芯片的安全性。

  六、解壓縮引擎,專用解壓縮引擎支持最新格式,加快數(shù)據(jù)庫查詢,提供數(shù)據(jù)分析和數(shù)據(jù)科學的最高性能。

  生態(tài)系統(tǒng)方面,Blackwell不僅是系統(tǒng)的核心芯片,更是一個全新的平臺。它涵蓋了從CPU和GPU計算到用于互連的不同類型的網(wǎng)絡(luò),是通用計算全棧矩陣的終極解決方案。

  Blackwell架構(gòu)將助推數(shù)據(jù)處理、工程模擬、電子設(shè)計自動化、計算機輔助藥物設(shè)計、量子計算和生成式AI等領(lǐng)域?qū)崿F(xiàn)突破。

  NVIDIA已經(jīng)展示了基于Blackwell架構(gòu)的GPU GB200 NVL72等產(chǎn)品,該產(chǎn)品專為萬億參數(shù)AI而設(shè)計,對大語言模型(LLM)推理性能提升高達30倍。隨著AI模型尺寸的增加,在多個GPU上拆分工作負載勢在必行。而Blackwell足夠強大,可以在一個GPU中處理專家模型。

  相比Hopper架構(gòu)的優(yōu)勢

  NVIDIA Blackwell架構(gòu)相比其上一個NVIDIA Hopper架構(gòu)具有多方面的優(yōu)勢。NVIDIA Hopper架構(gòu)是NVIDIA在2022年推出的GPU架構(gòu),該架構(gòu)旨在取代之前的NVIDIA Ampere架構(gòu),并為新一代工作負載提供強大的加速計算平臺。

  Hopper架構(gòu)采用了先進的臺積電4N工藝制造,集成了超過800億個晶體管,這為高性能計算提供了堅實的基礎(chǔ)。

  Hopper架構(gòu)通過Transformer引擎推進了Tensor Core技術(shù)的發(fā)展,旨在加速AI模型訓練。Transformer引擎能夠應(yīng)用混合的FP8和FP16精度,以大幅加速Transformer模型的AI計算。

  與上一代相比,Hopper架構(gòu)在TF32、FP64、FP16和INT8精度的每秒浮點運算(FLOPS)上提高了3倍。這種性能提升使得Hopper在處理大規(guī)模AI模型時更加高效。

  Hopper架構(gòu)引入了第四代NVLink技術(shù),可通過NVIDIA DGX和HGX服務(wù)器擴展多GPU輸入和輸出(IO),每個GPU的雙向傳輸速率可達900GB/s,比PCIe 5.0的帶寬高7倍。

  第三代NVIDIA NVSwitch支持SHARP網(wǎng)絡(luò)計算技術(shù),打破了該技術(shù)只能通過InfiniBand提供的傳統(tǒng)限制。這使得Hopper架構(gòu)在處理大規(guī)模HPC和AI工作負載時能夠?qū)崿F(xiàn)更高的互連效率和通信帶寬。

  相比較而言,晶體管數(shù)量與計算能力方面,Blackwell架構(gòu)GPU擁有2080億個晶體管,比Hopper架構(gòu)的GPU多出顯著數(shù)量,這直接提升了其計算能力。

  Blackwell架構(gòu)的單個芯片計算能力達到了20 petaFLOPS,這使其在處理大規(guī)模AI模型時具有更高的實時性能和效率。

  內(nèi)存與帶寬方面,Blackwell架構(gòu)配備了更大的HBM3e內(nèi)存(如192GB)和更高的顯存帶寬(如8TB/s),相比Hopper架構(gòu),這進一步增強了數(shù)據(jù)處理和傳輸?shù)乃俣取?/p>

  寫在最后

  NVIDIA Blackwell架構(gòu)相比其上一個架構(gòu)在性能、計算能力、技術(shù)創(chuàng)新、特性增強以及生態(tài)系統(tǒng)與應(yīng)用拓展等方面均具有顯著優(yōu)勢。應(yīng)用方面,Blackwell架構(gòu)將助推數(shù)據(jù)處理、工程模擬、電子設(shè)計自動化、計算機輔助藥物設(shè)計、量子計算和生成式AI等領(lǐng)域?qū)崿F(xiàn)突破。

中傳動網(wǎng)版權(quán)與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0