AI大模型瘋長,存儲(chǔ)扛住了嗎?

時(shí)間:2024-04-15

來源:維科網(wǎng)

導(dǎo)語:過去一年半,AI大模型標(biāo)志性的應(yīng)用相繼出現(xiàn),從ChatGPT到Sora一次次刷新人們的認(rèn)知。震撼的背后,是大模型參數(shù)指數(shù)級的增長。

  AI大模型正在倒逼數(shù)字基礎(chǔ)設(shè)施產(chǎn)業(yè)加速升級。

       過去一年半,AI大模型標(biāo)志性的應(yīng)用相繼出現(xiàn),從ChatGPT到Sora一次次刷新人們的認(rèn)知。震撼的背后,是大模型參數(shù)指數(shù)級的增長。

       這種數(shù)據(jù)暴漲的壓力,快速傳導(dǎo)到了大模型的底層基礎(chǔ)設(shè)施。作為支撐大模型的底座“三大件”——算力、網(wǎng)絡(luò)、存儲(chǔ),都在快速的迭代。

       算力方面,英偉達(dá)用了兩年的時(shí)間就將GPU從H100升級到了H200,讓模型的訓(xùn)練性能提升了5倍。

       網(wǎng)絡(luò)方面,從之前的25G升級到現(xiàn)在的200G,網(wǎng)絡(luò)帶寬提升了6倍。隨著RDMA大規(guī)模的應(yīng)用,網(wǎng)絡(luò)延遲也降低了60%。

       存儲(chǔ)方面,華為、阿里云、百度智能云、騰訊云等大廠,都相繼推出了面向AI大模型的存儲(chǔ)方案。

       那么作為基礎(chǔ)設(shè)施的三大件之一的存儲(chǔ),在AI大模型的場景下到底發(fā)生了哪些變化?又有哪些新的技術(shù)挑戰(zhàn)?

       AI大模型帶來的 存儲(chǔ)挑戰(zhàn)

       算力、算法、數(shù)據(jù),在發(fā)展AI過程中的重要性早已為人所熟知,但是作為數(shù)據(jù)的承載,存儲(chǔ)卻往往被忽略。

       在訓(xùn)練AI大模型的過程中,需要大量數(shù)據(jù)的交換,存儲(chǔ)作為數(shù)據(jù)的基礎(chǔ)硬件,并非僅僅只是簡單地記錄數(shù)據(jù),而是深刻參與到了數(shù)據(jù)歸集、流轉(zhuǎn)、利用等大模型訓(xùn)練的全流程。

        如果存儲(chǔ)性能不強(qiáng),那么可能需要耗費(fèi)大量時(shí)間才能完成一次訓(xùn)練,這就會(huì)嚴(yán)重制約大模型的發(fā)展迭代。

       事實(shí)上,不少企業(yè)在開發(fā)及實(shí)施大模型應(yīng)用過程中,已經(jīng)開始意識(shí)到存儲(chǔ)系統(tǒng)所面臨的巨大挑戰(zhàn)。

       從AI大模型的研發(fā)生產(chǎn)流程看,可分為數(shù)據(jù)采集、清洗、訓(xùn)練和應(yīng)用四個(gè)階段,各階段都對存儲(chǔ)提出了新的要求,比如:在數(shù)據(jù)采集環(huán)節(jié),由于原始訓(xùn)練數(shù)據(jù)規(guī)模海量,且來源多樣,企業(yè)希望能夠有一個(gè)大容量、低成本、高可靠的數(shù)據(jù)存儲(chǔ)底座。

       在數(shù)據(jù)清洗階段,網(wǎng)絡(luò)上收集的原始數(shù)據(jù)是不能直接用于AI模型訓(xùn)練的,需要將多格式、多協(xié)議的數(shù)據(jù)進(jìn)行清洗、去重、過濾、加工,行業(yè)內(nèi)稱其為“數(shù)據(jù)預(yù)處理”。

       與傳統(tǒng)單模態(tài)小模型訓(xùn)練相比,多模態(tài)大模型所需的訓(xùn)練數(shù)據(jù)量是其1000倍以上,一個(gè)典型的百TB級大模型數(shù)據(jù)集,預(yù)處理時(shí)長超過10天,占比AI數(shù)據(jù)挖掘全流程的30%。

       同時(shí),數(shù)據(jù)預(yù)處理伴隨高并發(fā)處理,對算力消耗巨大。這就要求存儲(chǔ)能夠提供多協(xié)議、高性能的支持,用標(biāo)準(zhǔn)文件的方式完成海量數(shù)據(jù)的清洗和轉(zhuǎn)換,以縮短數(shù)據(jù)預(yù)處理的時(shí)長。

       在模型訓(xùn)練環(huán)節(jié),通常會(huì)出現(xiàn)訓(xùn)練集加載慢、易中斷、數(shù)據(jù)恢復(fù)時(shí)間長等問題。相較于傳統(tǒng)學(xué)習(xí)模型,大模型訓(xùn)練參數(shù)、訓(xùn)練數(shù)據(jù)集指數(shù)級增加,如何實(shí)現(xiàn)海量小文件數(shù)據(jù)集快速加載,降低 GPU等待時(shí)間是關(guān)鍵。

       目前,主流預(yù)訓(xùn)練模型已經(jīng)有千億級參數(shù),而頻繁的參數(shù)調(diào)優(yōu)、網(wǎng)絡(luò)不穩(wěn)定、服務(wù)器故障等多種因素帶來訓(xùn)練過程不穩(wěn)定,易中斷返工,需要Checkpoints機(jī)制來確保訓(xùn)練回退到還原點(diǎn),而不是初始點(diǎn)。

       當(dāng)前,由于Checkpoints需要天級的恢復(fù)時(shí)長,導(dǎo)致大模型整體訓(xùn)練周期陡增,而面對單次超大的數(shù)據(jù)量和未來小時(shí)級的頻度要求,需要認(rèn)真考慮如何降低Checkpoints恢復(fù)時(shí)長。

       因此,存儲(chǔ)能否快速地讀寫checkpoint(檢查點(diǎn))文件,也成了能否高效利用算力資源、提高訓(xùn)練效率的關(guān)鍵。

       在應(yīng)用階段,存儲(chǔ)需要提供比較豐富的數(shù)據(jù)審核的能力,來滿足鑒黃鑒暴安全合規(guī)的訴求,保證大模型生成的內(nèi)容是合法、合規(guī)的方式去使用。

       總的來說,AI大模型訓(xùn)練的效率要達(dá)到極致,減少不必要的浪費(fèi),必須在數(shù)據(jù)上下功夫。準(zhǔn)確地說,必須要在數(shù)據(jù)存儲(chǔ)技術(shù)上進(jìn)行創(chuàng)新。

        AI倒逼存儲(chǔ)技術(shù)創(chuàng)新

       根據(jù)投資機(jī)構(gòu)ARK Invest預(yù)算,到2030年,產(chǎn)業(yè)有望訓(xùn)練出比GPT-3多57倍參數(shù)、多720倍Token的AI模型,成本將從今天的170億美元降至60萬美元。隨著計(jì)算價(jià)格降低,數(shù)據(jù)將成為大模型生產(chǎn)的主要限制因素。

       面對數(shù)據(jù)桎梏問題,不少企業(yè)已經(jīng)開始進(jìn)行前瞻性布局。

       比如百川智能、智譜、元象等大模型企業(yè),都已采用騰訊云AIGC云存儲(chǔ)解決方案來提升效率。數(shù)據(jù)顯示,騰訊云AIGC云存儲(chǔ)解決方案,可將大模型的數(shù)據(jù)清洗和訓(xùn)練效率均提升一倍,需要的時(shí)間縮短一半??拼笥嶏w、中科院等大模型企業(yè)和機(jī)構(gòu),則采用了華為AI存儲(chǔ)相關(guān)產(chǎn)品。

       數(shù)據(jù)顯示,華為OceanStor A310可實(shí)現(xiàn)從數(shù)據(jù)歸集、預(yù)處理到模型訓(xùn)練、推理應(yīng)用的AI全流程海量數(shù)據(jù)管理,簡化數(shù)據(jù)歸集流程,減少數(shù)據(jù)搬移,預(yù)處理效率提升30%。目前,國內(nèi)各大廠商也相繼發(fā)布了面向AI大模型場景的存儲(chǔ)方案。

       2023年7月,華為發(fā)布兩款面向AI大模型的存儲(chǔ)產(chǎn)品——OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)和FusionCube A3000訓(xùn)/推超融合一體機(jī)。

       2023年11月云棲大會(huì)上,阿里云推出一系列針對大模型場景的存儲(chǔ)產(chǎn)品創(chuàng)新,用AI技術(shù)賦能AI業(yè)務(wù),幫助用戶更輕松地管理大規(guī)模多模態(tài)數(shù)據(jù)集,提高模型訓(xùn)練、推理的效率和準(zhǔn)確性。

       2023年12月,百度智能云發(fā)布了“百度滄?!ご鎯?chǔ)”統(tǒng)一技術(shù)底座,同時(shí)面向數(shù)據(jù)湖存儲(chǔ)和AI存儲(chǔ)能力進(jìn)行了全面增強(qiáng)。

       2024年4月,騰訊云宣布云存儲(chǔ)解決方案面向AIGC場景全面升級,針對AI大模型數(shù)據(jù)采集清洗、訓(xùn)練、推理、數(shù)據(jù)治理全流程提供全面、高效的云存儲(chǔ)支持。

       綜合各大廠商的存儲(chǔ)技術(shù)創(chuàng)新,可以發(fā)現(xiàn)技術(shù)方向較為統(tǒng)一,都是基于AI大模型生產(chǎn)研發(fā)的全流程,對存儲(chǔ)產(chǎn)品進(jìn)行有針對性的性能優(yōu)化。

       以騰訊云為例,在數(shù)據(jù)采集與清洗環(huán)節(jié),首先需要存儲(chǔ)能夠支持多協(xié)議、高性能、大帶寬。因此,騰訊云對象存儲(chǔ)COS能夠支持單集群管理百 EB 級別存儲(chǔ)規(guī)模,提供便捷、高效的數(shù)據(jù)公網(wǎng)接入能力,并支持多種協(xié)議,充分支持大模型PB級別的海量數(shù)據(jù)采集。同時(shí),數(shù)據(jù)清洗時(shí),大數(shù)據(jù)引擎需要快速地讀取并過濾出有效數(shù)據(jù)。

       騰訊云對象存儲(chǔ)COS通過自研數(shù)據(jù)加速器GooseFS提升數(shù)據(jù)訪問性能,實(shí)現(xiàn)了高達(dá)數(shù)TBps的讀取帶寬,支撐計(jì)算高速運(yùn)行,大大提升數(shù)據(jù)清洗效率。在模型訓(xùn)練環(huán)節(jié),通常需要每2-4小時(shí)保存一次訓(xùn)練成果,以便能在GPU故障時(shí)時(shí)能回滾。騰訊云自主研發(fā)并行文件存儲(chǔ)CFS Turbo ,面向AIGC訓(xùn)練場景的進(jìn)行了專門優(yōu)化,每秒總讀寫吞吐達(dá)到TiB/s級別,每秒元數(shù)據(jù)性能高達(dá)百萬OPS,均為業(yè)界第一。3TB checkpoint 寫入時(shí)間從10分鐘,縮短至10秒內(nèi),使大模型訓(xùn)練效率大幅提升。大模型推理場景對數(shù)據(jù)安全與可追溯性提出更高要求。

       騰訊云數(shù)據(jù)萬象CI為此提供圖片隱式水印、AIGC內(nèi)容審核、智能數(shù)據(jù)檢索MetaInsight等能力,為數(shù)據(jù)生產(chǎn)從“用戶輸入——預(yù)處理——內(nèi)容審核——版權(quán)保護(hù)——安全分發(fā)——信息檢索”業(yè)務(wù)全流程提供有力支撐,優(yōu)化AIGC內(nèi)容生產(chǎn)與管理模式,順應(yīng)監(jiān)管導(dǎo)向,拓寬存儲(chǔ)邊界。

       同時(shí),隨著訓(xùn)練數(shù)據(jù)和推理數(shù)據(jù)的增長,需要提供低成本的存儲(chǔ)能力,減少存儲(chǔ)開銷。騰訊云對象存儲(chǔ)服務(wù)提供了高達(dá)12個(gè)9的數(shù)據(jù)持久性和99.995%的數(shù)據(jù)可用性,能夠?yàn)闃I(yè)務(wù)提供持續(xù)可用的存儲(chǔ)服務(wù)。總的來說,隨著AI大模型的推進(jìn),數(shù)據(jù)存儲(chǔ)出現(xiàn)了新的趨勢。市場渴望更高性能、大容量、低成本的存儲(chǔ)產(chǎn)品,并加速大模型各個(gè)環(huán)節(jié)的融合和效率提升。而各大廠商也在通過技術(shù)創(chuàng)新不斷滿足大模型各環(huán)節(jié)的需求,為企業(yè)實(shí)施大模型降低門檻。在AI大模型的倒逼下,存儲(chǔ)創(chuàng)新已在路上。


AI
中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

最新新聞
查看更多資訊

娓娓工業(yè)

廣州金升陽科技有限公司

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0