基于機器學(xué)習(xí)的 動態(tài)分區(qū)并行文件系統(tǒng)性能優(yōu)化

文:吳嘉澍 1,2 王紅博 1 代浩 1 須成忠 3 王洋 12021年第一期

近年來,隨著大數(shù)據(jù)、云計算技術(shù)的發(fā)展,應(yīng)用系統(tǒng)越來越集中,規(guī)模亦越來越大,使得存儲系統(tǒng)的性能問題越來越突出。為應(yīng)對其性能要求,并行文件系統(tǒng)得到了大量的應(yīng)用。然而現(xiàn)有的并行文件系統(tǒng)優(yōu)化方法,大多只考慮應(yīng)用系統(tǒng)或并行文件系統(tǒng)本身,較少考慮兩者之間的協(xié)同。該文基于應(yīng)用系統(tǒng)在并行文件系統(tǒng)上的訪問模式對存儲系統(tǒng)的性能有顯著影響這一特點,提出基于動態(tài)分區(qū)的并行文件系統(tǒng)優(yōu)化方法。首先,利用機器學(xué)習(xí)技術(shù)來分析挖掘各個性能影響因素和性能指標之間的關(guān)系和規(guī)律,生成優(yōu)化模型。其次, 以優(yōu)化模型為基礎(chǔ),輔助并行文件系統(tǒng)的參數(shù)調(diào)優(yōu)工作。最后,基于 Ceph 存儲系統(tǒng)進行原型實現(xiàn),并設(shè)計了三層架構(gòu)應(yīng)用系統(tǒng)進行了性能測試,最終達到優(yōu)化并行文件系統(tǒng)訪問性能的目的。實驗結(jié)果表明,所提出方法可以達到 85% 的預(yù)測優(yōu)化準確率;在所提出模型的輔助優(yōu)化下,并行文件系統(tǒng)的吞吐量性能得到約 3.6 倍的提升。

1 引 言

伴隨著互聯(lián)網(wǎng)、大數(shù)據(jù)和云計算技術(shù)的發(fā)展,應(yīng)用系統(tǒng)

的計算、數(shù)據(jù)和部署越來越集中,應(yīng)用系統(tǒng)的規(guī)模也相應(yīng)地不斷擴大。對于輸入輸出(I/O) 密集型的應(yīng)用程序,存儲系統(tǒng)性能,即其運行效率,常常會成為整個系統(tǒng)的性能瓶頸。常見的性能指標有吞吐量 (Throughput)、每秒讀寫操作次數(shù) (Input/ Output Operations per Second,IOPS) 等。為了解決這一問題,研究者進行了各種各樣的嘗試,而并行文件系統(tǒng)便是一種被廣泛應(yīng)用的系統(tǒng)技術(shù)。

并行文件系統(tǒng)通過將多個邏輯上獨立的存儲節(jié)點聚合為一個有邏輯的、高性能的存儲系統(tǒng)來緩解或解決相應(yīng)的存儲系統(tǒng)性能問題。它可以將分散于各個存儲節(jié)點上的磁盤性能進行匯聚,以統(tǒng)一的、標準的接口為應(yīng)用提供高性能的文件存儲及訪問服務(wù),并可以隨著系統(tǒng)規(guī)模的擴大而很容易地進行縱向、橫向的擴展,因而具有高吞吐量、高 I/O 帶寬、容易擴展等特點。現(xiàn)實場景中的應(yīng)用系統(tǒng)都具有多樣性。應(yīng)用系統(tǒng)本身的特點及其數(shù)據(jù)訪問層的設(shè)計決定了其在并行文件系統(tǒng)上的訪問需

求及 I/O 訪問模式。譬如對于視頻監(jiān)控類應(yīng)用來說,其 I/O 訪問模式主要以順序讀或?qū)憺橹?,強調(diào)并行文件系統(tǒng)的吞吐量; 而股票交易系統(tǒng)的 I/O 訪問模式則以隨機讀或?qū)憺橹?,強調(diào)IOPS 的并發(fā)能力。如何針對應(yīng)用系統(tǒng)的 I/O 模式在并行文件系統(tǒng)的配置上進行優(yōu)化,從而產(chǎn)生協(xié)同效果是一個值得思考的問題。而現(xiàn)有的性能優(yōu)化方法,無論是基于并行文件系統(tǒng)本身, 或是基于應(yīng)用系統(tǒng)本身,都較少考慮這一點。

另一方面,當前提出的優(yōu)化方法,絕大多數(shù)都是基于某一個時間點的、靜態(tài)的優(yōu)化方法。當應(yīng)用系統(tǒng)的功能、負載或者架構(gòu)發(fā)生變化時,并行文件系統(tǒng) I/O 訪問模式也會隨之產(chǎn)生變化,而這種變化將導(dǎo)致已有的優(yōu)化方法可能不再適用于當前的系統(tǒng)。因此,根據(jù)某一個時間點應(yīng)用系統(tǒng)的 I/O 模式對應(yīng)用系統(tǒng)或并行文件系統(tǒng)進行孤立的、靜態(tài)的優(yōu)化方法都有其局限性。在理想狀況下,各種并行文件系統(tǒng)的設(shè)計假設(shè)所有的底層硬件都具有性能的一致性。正是出于這種假設(shè),并行文件系統(tǒng)在設(shè)計時通常按照一定的算法將系統(tǒng)的 I/O 負載均勻地分配到每一個底層的數(shù)據(jù)存儲節(jié)點上,但這種設(shè)計可能會存在底層存儲系統(tǒng)的性能沒有被充分利用的情況。因為在具體實踐中,并行文件系統(tǒng)的各個存儲服務(wù)器節(jié)點之間存在性能差異是常見的現(xiàn)象。不管這種差異是由于 I/O 控制方式造成的,還是由于其存儲介質(zhì)原理、運轉(zhuǎn)機制等造成的,該差異在大多數(shù)情況下并沒有在并行文件系統(tǒng)設(shè)計的時候被考慮,因而可能會造成性能較好的節(jié)點資源未被充分利用的情形。雖然這種情況可以通過應(yīng)用數(shù)據(jù)存儲分布策略和并發(fā)策略來彌補,但仍然值得留意。

綜上所述,現(xiàn)有并行文件系統(tǒng)優(yōu)化方法雖能在一定程度上緩解或解決性能問題,但是仍然存在不足。本文將尋求一種新的, 更具有針對性、適應(yīng)性的并行文件系統(tǒng)性能優(yōu)化方法。本文的創(chuàng)新性及先進性主要體現(xiàn)在以下幾點。

(1)基于機器學(xué)習(xí)的動態(tài)分區(qū)并行文件系統(tǒng)框架:通過對各種應(yīng)用 I/O 模式下影響并行文件系統(tǒng)性能的因素和性能指標數(shù)據(jù)進行相關(guān)性分析,發(fā)現(xiàn)并通過實驗證實了塊分區(qū)尺寸與兩個主要性能度量指標之間的關(guān)系,據(jù)此再結(jié)合機器學(xué)習(xí)技術(shù)提出了基于機器學(xué)習(xí)的動態(tài)分區(qū)并行文件系統(tǒng)的優(yōu)化方案。

(2)基于邏輯回歸的面向文件系統(tǒng)動態(tài)分區(qū)的機器學(xué)習(xí)算法:對基于動態(tài)分區(qū)的并行文件系統(tǒng)性能優(yōu)化方法進行歸納和總結(jié),提出基于邏輯回歸的優(yōu)化算法,從而實現(xiàn)通過輸入調(diào)優(yōu)參數(shù)后利用模型預(yù)測性能影響的方法來指導(dǎo)并行文件系統(tǒng)訪問性能的參數(shù)調(diào)優(yōu)工作。模型在驗證數(shù)據(jù)集上達到了最大 85% 的準確率。

(3)基于 Ceph 文件系統(tǒng)實現(xiàn)原型設(shè)計與實現(xiàn):設(shè)計和實現(xiàn)了基于 Ceph 存儲系統(tǒng)的并行文件系統(tǒng)原型,并用于機器學(xué)習(xí)模型所需數(shù)據(jù)的生成、模型的優(yōu)化及驗證工作。經(jīng)過實驗驗證, 整個環(huán)境可以滿足本文所設(shè)計的各種實驗及測試要求,可以用來驗證所提出優(yōu)化算法的可行性和有效性。

微信截圖_20210507164019.png


2 相關(guān)工作

近年來,并行文件系統(tǒng)被廣泛應(yīng)用, 各種并行文件系

統(tǒng) 應(yīng) 運 而 生。 比 較 著 名 的 有 GPFS(IBM General Parallel File System)[7]、PVFS(Parallel Virtual File System)[8]、PanFS[9]、Lustre 及 Ceph 等。在進行并行文件系統(tǒng)的性能研究時,通常從研究其影響因素著手:尋找哪些因素對并行文件系統(tǒng)的性能產(chǎn)生影響并探索這些因素在應(yīng)用系統(tǒng)、并行文件系統(tǒng)中的分布情況,進而研究各個因素對并行文件系統(tǒng)的影響程度。但是,由于并行文件系統(tǒng)是一個架構(gòu)復(fù)雜的分布式系統(tǒng), 且需經(jīng)常應(yīng)對多變的應(yīng)用系統(tǒng)而做出調(diào)整,因此造成了并行文件系統(tǒng)性能優(yōu)化方法的復(fù)雜性。

并行文件系統(tǒng)性能優(yōu)化研究通常從應(yīng)用系統(tǒng)、元數(shù)據(jù)(Metadata) 服務(wù)、存儲服務(wù)器以及并行文件系統(tǒng)架構(gòu)等幾個方面展開( 見表 1)。在并行文件系統(tǒng)架構(gòu)優(yōu)化方面,可以采用的方法包括優(yōu)化數(shù)據(jù)存儲和分布的策略、采用更高帶寬的存儲網(wǎng)絡(luò)及采用基于負載特征的存儲架構(gòu)等 [12];

對元數(shù)據(jù)優(yōu)化的方法包括對元數(shù)據(jù)的創(chuàng)建、查找、搜索、存儲分布進行分割優(yōu)化,其中對元數(shù)據(jù)服務(wù)器進行優(yōu)化,采用分布式元數(shù)據(jù)服務(wù)架構(gòu)等方法;對數(shù)據(jù)存儲的優(yōu)化方法包括優(yōu)化數(shù)據(jù)存儲條帶化參數(shù)( 包括條帶寬度、條帶深度和帶偏移量等),優(yōu)化磁盤類型和數(shù)量,RAID 級別,建立緩存機制,優(yōu)化存儲服務(wù)器數(shù)量。

當需要在應(yīng)用系統(tǒng)上著手對并行文件系統(tǒng)的訪問性能進行優(yōu)化時,通??梢詮膬煞矫嬷郑阂皇侵貥?gòu)數(shù)據(jù)訪問層,利用更優(yōu)化的算法、采用異步消息隊列、加入緩存機制或優(yōu)化存儲并行訪問策略等方法;二是從并行文件系統(tǒng)上著手,即本文所采取的方式,根據(jù)應(yīng)用系統(tǒng)的特點和負載形式,對并行文件系統(tǒng)進行有針對性的配置從而達到優(yōu)化性能的目的。

常見的并行文件系統(tǒng)性能優(yōu)化方法見表 1,其對相關(guān)技術(shù)在包括架構(gòu)、數(shù)據(jù)和元數(shù)據(jù) I/O 性能等三方面進行了對比。

微信截圖_20210507164759.png

3面向動態(tài)分區(qū)的并行文件系統(tǒng)性能優(yōu)化算法

3.1問題描述

并行文件系統(tǒng)的性能是指并行文件系統(tǒng)的運行效率。常見的性能評估指標有每秒讀寫操作次數(shù) IOPS、吞吐量、最大每秒寫 I/O 操作次數(shù) (WIOPS) 和讀 I/O 操作占比 (RRatio) 等。

通過對樣本數(shù)據(jù)進行分析,構(gòu)建熱力圖 ( 圖 1) 并對其進行比較、分析之后,可以發(fā)現(xiàn)以下規(guī)律:

(1)區(qū)塊尺寸 (I/O 操作最大讀、寫分區(qū)尺寸 ) 對兩個主要性能 IOPS 和吞吐量的影響都極為顯著。

(2)IOPS 隨著區(qū)塊尺寸的增加而減小,吞吐量則相反。進一步的分析發(fā)現(xiàn),IOPS 及吞吐量和塊分區(qū)尺寸近似線性相關(guān)。

(3)讀 I/O 操作占比對 IOPS 和吞吐量也有影響,但沒有塊分區(qū)尺寸影響顯著。

因此,本文選擇動態(tài)分區(qū)尺寸大小作為改變性能的因素, 對并行文件系統(tǒng)訪問性能進行優(yōu)化。本文選定通過調(diào)整區(qū)塊尺寸( 單次 I/O 操作最大讀、寫分區(qū) ) 來進行性能優(yōu)化的另外一個原因是,現(xiàn)有的并行文件系統(tǒng)都支持對這一性能因素進行在線調(diào)整。

選定了性能因素之后,本文將利用機器學(xué)習(xí)的方法為塊分區(qū)尺寸和并行文件系統(tǒng)性能指標建立關(guān)系模型,通過預(yù)測某個分區(qū)尺寸對并行文件系統(tǒng)性能的影響來指優(yōu)化工作,最終選取可對系統(tǒng)性能達到優(yōu)化效果的分區(qū)尺寸并進行在線配置。在性能優(yōu)化評價方面,本文則選擇 IOPS 和吞吐量來對并

行文件系統(tǒng)訪問性能的優(yōu)化效果進行評價。圖 2 再次驗證了分區(qū)尺寸對并行文件系統(tǒng)性能的顯著影響,從而反映出通過調(diào)整分區(qū)尺寸對性能進行優(yōu)化是可行的。為了對問題能更進一步的分析和研究,也為了更好地利用機器學(xué)習(xí)技術(shù),本文需要做出一些假設(shè)和限定,并對所要研究的問題進行以下定義。

(1)假設(shè)與約束

并行文件系統(tǒng)硬件配置的更改,如使用固態(tài)硬盤 (SSD) 替代傳統(tǒng)機械硬盤,會因其物理特性或技術(shù)特性的原因而顯著地影響存儲子系統(tǒng)的性能,因此本文假設(shè)并行文件系統(tǒng)的硬件配置在優(yōu)化過程中保持不變。不僅如此,并行文件系統(tǒng)軟件配置、架構(gòu)的變更也可能對存儲子系統(tǒng)性能產(chǎn)生影響,如緩存 Cache 的配置以及 Cache 的大小。因此本文也假設(shè),在存儲子系統(tǒng)優(yōu)化過程中,除了本文選定的性能優(yōu)化方法所需要的系統(tǒng)配置參數(shù)之外,其他系統(tǒng)配置、參數(shù)及系統(tǒng)架構(gòu)在優(yōu)化過程中均保持不變。

(2)性能優(yōu)化目標

理想狀態(tài)下,并行文件系統(tǒng)的最大存儲訪問性能(Capacity) 由并行文件系統(tǒng)的物理特性和架構(gòu)決定,并和具體的應(yīng)用系統(tǒng)無關(guān)。因此在考慮優(yōu)化目標時,將以并行文件系統(tǒng)的最大存儲訪問性能為基礎(chǔ)并結(jié)合一定的性能損失來確定。存儲系統(tǒng)的最大存儲訪問性能可以通過壓力測試來獲得,而應(yīng)用系統(tǒng)對存儲子系統(tǒng)的性能損失則依賴經(jīng)驗值,即 30%。在應(yīng)用系統(tǒng)對并行文件系統(tǒng)訪問性能損失參考值確定以后,就能以此來確定優(yōu)化的目標。

(3)問題的定義

依照本文的假設(shè)與約束,對所研究的問題進行了歸納,即針對特定應(yīng)用系統(tǒng)特定的并行文件系統(tǒng)的訪問模式,對其性能按照預(yù)先設(shè)定的優(yōu)化目標,通過調(diào)整區(qū)塊尺寸的方法進行優(yōu)化。并且當應(yīng)用系統(tǒng)對并行文件系統(tǒng)的訪問模式發(fā)生變化時,所提出算法能夠持續(xù)地調(diào)整優(yōu)化方案,從而實現(xiàn)基于機器學(xué)習(xí)的動態(tài)并行文件系統(tǒng)的訪問性能優(yōu)化方法。

微信截圖_20210507165654.png


中傳動網(wǎng)版權(quán)與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

伺服與運動控制

關(guān)注伺服與運動控制公眾號獲取更多資訊

直驅(qū)與傳動

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

中國傳動網(wǎng)

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服與運動控制

    2023年第1期