雖然數(shù)據(jù)中心的運(yùn)營(yíng)從未如此繁忙,但作為企業(yè)碳減排目標(biāo)的一部分,數(shù)據(jù)中心運(yùn)營(yíng)團(tuán)隊(duì)面臨著減少能耗的壓力。而且,急劇上漲的電價(jià)正在給數(shù)據(jù)中心運(yùn)營(yíng)商帶來(lái)預(yù)算壓力。
隨著數(shù)據(jù)中心專注于支持人們?cè)絹?lái)越需要的工作和生活的基本技術(shù)服務(wù),數(shù)據(jù)中心的運(yùn)營(yíng)如此繁重也就不足為奇了。在沒(méi)有放緩跡象的推動(dòng)下,人們看到與視頻、存儲(chǔ)、計(jì)算需求、智能物聯(lián)網(wǎng)集成以及5G連接推出相關(guān)的數(shù)據(jù)使用量大幅增加。然而,盡管工作量不斷增加,但不幸的是,當(dāng)今許多數(shù)據(jù)中心設(shè)施的運(yùn)行效率都不夠高。
鑒于數(shù)據(jù)中心的平均工作壽命超過(guò)20年,這不足為奇。效率總是取決于數(shù)據(jù)中心設(shè)施的原始設(shè)計(jì),并且基于早已被超越的預(yù)期IT負(fù)載。與此同時(shí),變化是一個(gè)不變的因素,平臺(tái)、設(shè)備設(shè)計(jì)、拓?fù)?、功率密度和冷卻要求都隨著新的應(yīng)用的不斷發(fā)展而變化。其結(jié)果是經(jīng)常發(fā)現(xiàn)全球各地的數(shù)據(jù)中心很難將當(dāng)前和計(jì)劃的IT負(fù)載與其關(guān)鍵基礎(chǔ)設(shè)施相匹配。隨著數(shù)據(jù)中心需求的增加,這種情況只會(huì)加劇。根據(jù)分析師的預(yù)測(cè),從現(xiàn)在到2025年,數(shù)據(jù)中心的工作負(fù)載量將以每年20%左右的速度繼續(xù)增長(zhǎng)。
傳統(tǒng)的數(shù)據(jù)中心技術(shù)和方法難以滿足這些不斷升級(jí)的需求。對(duì)可用性進(jìn)行優(yōu)先級(jí)排序在很大程度上是以犧牲效率為代價(jià)的,太多的工作仍然依賴于運(yùn)營(yíng)人員的經(jīng)驗(yàn),并且相信假設(shè)是正確的。不幸的是,有證據(jù)表明這種模式不再適用。遠(yuǎn)程傳感器監(jiān)控提供商EkkoSense公司的研究表明,數(shù)據(jù)中心中平均有15%的IT機(jī)架在ASHRAE的溫度和濕度指南規(guī)定的范圍之外運(yùn)行,而由于效率低下甚至導(dǎo)致數(shù)據(jù)中心冷卻能耗高達(dá)60%。這是一個(gè)主要問(wèn)題,根據(jù)UptimeInstitute估計(jì),由于冷卻和氣流管理效率低下,全球數(shù)據(jù)中心浪費(fèi)的能源損失約為180億美元。這相當(dāng)于浪費(fèi)了大約1500億度電。
數(shù)據(jù)中心基礎(chǔ)設(shè)施使用的35%的能源用于冷卻,很明顯,傳統(tǒng)的性能優(yōu)化方法錯(cuò)過(guò)了實(shí)現(xiàn)效率提升的巨大機(jī)會(huì)。EkkoSense公司的調(diào)查表明,三分之一的計(jì)劃外數(shù)據(jù)中心中斷是由過(guò)熱問(wèn)題引發(fā)的。因此需要找到不同的方法來(lái)管理這個(gè)問(wèn)題,可以為數(shù)據(jù)中心運(yùn)營(yíng)團(tuán)隊(duì)提供很好的方法來(lái)確保可用性和提高效率。
傳統(tǒng)監(jiān)控技術(shù)的局限性
不幸的是,目前只有大約5%的運(yùn)維團(tuán)隊(duì)在每個(gè)機(jī)架上監(jiān)控和報(bào)告他們的數(shù)據(jù)中心設(shè)備溫度。此外,DCIM和傳統(tǒng)監(jiān)控解決方案可以提供趨勢(shì)數(shù)據(jù),并設(shè)置成在出現(xiàn)故障時(shí)提供警報(bào),但這些措施還不夠。它們?nèi)狈Ψ治瞿芰Γ瑹o(wú)法深入了解問(wèn)題的原因,以及如何在未來(lái)解決和避免問(wèn)題。
運(yùn)營(yíng)團(tuán)隊(duì)認(rèn)識(shí)到這種傳統(tǒng)監(jiān)控技術(shù)有其局限性,但他們也知道根本沒(méi)有資源和時(shí)間來(lái)獲取他們擁有的數(shù)據(jù),并從分析數(shù)據(jù)中獲得有意義的見(jiàn)解。好消息是,現(xiàn)在可以使用技術(shù)解決方案來(lái)幫助數(shù)據(jù)中心解決這個(gè)問(wèn)題。
現(xiàn)在是讓數(shù)據(jù)中心與機(jī)器學(xué)習(xí)和人工智能相結(jié)合的時(shí)候了
機(jī)器學(xué)習(xí)和人工智能的應(yīng)用在如何處理數(shù)據(jù)中心運(yùn)營(yíng)方面創(chuàng)造了一個(gè)新的模式。運(yùn)營(yíng)團(tuán)隊(duì)現(xiàn)在可以利用機(jī)器學(xué)習(xí)來(lái)收集更細(xì)粒度的數(shù)據(jù),而不是被過(guò)多的性能數(shù)據(jù)淹沒(méi)——這意味著他們可以開(kāi)始實(shí)時(shí)訪問(wèn)數(shù)據(jù)中心的運(yùn)行情況。關(guān)鍵是使其易于訪問(wèn),使用智能3D可視化是一種很好的方法,可以讓數(shù)據(jù)中心團(tuán)隊(duì)更輕松地在更深層次上解釋性能和數(shù)據(jù):例如顯示更改和突出顯示異常。
下一階段是應(yīng)用機(jī)器學(xué)習(xí)和人工智能分析來(lái)提供可行的見(jiàn)解。通過(guò)使用機(jī)器學(xué)習(xí)算法擴(kuò)充測(cè)量數(shù)據(jù)集,數(shù)據(jù)中心團(tuán)隊(duì)可以立即受益于易于理解的見(jiàn)解,以幫助支持他們的實(shí)時(shí)優(yōu)化決策。每五分鐘進(jìn)行一次實(shí)時(shí)粒度數(shù)據(jù)收集和人工智能/機(jī)器學(xué)習(xí)分析相結(jié)合,使運(yùn)營(yíng)人員不僅可以查看其數(shù)據(jù)中心設(shè)施中發(fā)生的情況,還可以找出原因,以及應(yīng)該如何處理。
人工智能和機(jī)器學(xué)習(xí)支持的分析還可以揭示建議關(guān)鍵領(lǐng)域的可操作更改所需的洞察力,如最佳設(shè)定點(diǎn)、地板格柵布局、冷卻設(shè)施操作以及風(fēng)扇速度調(diào)整等。熱量分析還將顯示安裝機(jī)架的最佳位置。而且,由于人工智能能夠?qū)崿F(xiàn)實(shí)時(shí)可視化,數(shù)據(jù)中心團(tuán)隊(duì)可以快速獲得任何已經(jīng)執(zhí)行更改的即時(shí)性能反饋。
人工智能和機(jī)器學(xué)習(xí)為數(shù)據(jù)中心運(yùn)營(yíng)提供幫助
鑒于減少碳排放量和盡量減少電價(jià)上漲影響的壓力,數(shù)據(jù)中心團(tuán)隊(duì)如果要實(shí)現(xiàn)其可靠性和效率目標(biāo),就需要新的優(yōu)化支持。
利用最新的機(jī)器學(xué)習(xí)和人工智能驅(qū)動(dòng)的數(shù)據(jù)中心優(yōu)化方法當(dāng)然可以通過(guò)減少冷卻能源和使用來(lái)產(chǎn)生影響——在幾周內(nèi)即可獲得立竿見(jiàn)影的結(jié)果。將細(xì)粒度數(shù)據(jù)置于優(yōu)化計(jì)劃的最前沿,數(shù)據(jù)中心團(tuán)隊(duì)不僅能夠消除過(guò)熱和電力故障風(fēng)險(xiǎn),還能確保將冷卻能耗成本和碳排放量平均降低30%。很難忽視這種成本節(jié)省可能產(chǎn)生的影響,尤其是在電價(jià)快速上漲的時(shí)期。如今為優(yōu)化而權(quán)衡風(fēng)險(xiǎn)和可用性的日子已經(jīng)一去不復(fù)返了,人工智能和機(jī)器學(xué)習(xí)技術(shù)將應(yīng)用在數(shù)據(jù)中心運(yùn)營(yíng)的最前沿。