
數(shù)據(jù)中心中的自動監(jiān)控系統(tǒng)在市場上來說較新穎,起初這類產(chǎn)品包含各種功能,像是保存設備記錄以及控制設備的移動和維護。 直至今天,它功能不僅是綁定數(shù)據(jù)庫來繪制圖表傳達機房信息, 現(xiàn)代系統(tǒng)更能解決數(shù)據(jù)中心操作上的各種任務。在此篇文章,我們將了解業(yè)界中常出現(xiàn)的問題,并嘗試尋找解決問題的方法。
擴展多樣性功能
數(shù)據(jù)中心的工程基礎(chǔ)設施可區(qū)分成兩個控制回路, 一個處理機柜的冷卻和電力分配,另一個處理整體設施的電力系統(tǒng)、空調(diào)系統(tǒng)及各種輔助子系統(tǒng)(滅火,門禁控制等),通常這兩種回路和它們的組件是彼此獨立且由不同部門的維運人員操作。
企業(yè)通常不愿意為基礎(chǔ)設施管理購買整體解決方案,尤其商用數(shù)據(jù)中心。 而公司的管理階層常常想節(jié)省花費,同意選用零散的空調(diào)和UPS系統(tǒng)為規(guī)劃。然而,多個控制電路之間缺乏溝通橋梁,數(shù)據(jù)中心子系統(tǒng)的不同自動化水平以及多家不同的設備供貨商,使所有設施部分的協(xié)調(diào)工作復雜化,導致在整合上遇到許多困難。
控制模式
在最壞的情況下,小型的數(shù)據(jù)中心子系統(tǒng)是手動控制的,并且使用微軟Excel來記錄設備的安裝和移動,通常這文書記錄自然是一團糟,因為使用電子表格保持正確的數(shù)據(jù)庫是一項非常有挑戰(zhàn)性的任務,當機柜數(shù)量以十為單位進行測量時,這時會有手工核算的問題產(chǎn)生,而且此類的數(shù)據(jù)中心在發(fā)生故障時才會更換設備,但這會增加發(fā)生事故時的間接成本和停機時間。
如果停機時間對數(shù)據(jù)中心非常關(guān)鍵,則應使用反應控制模式,這種模式可以監(jiān)控故障排除程序,且持續(xù)有文書記錄。 但是,該流程需基于員工有足夠經(jīng)驗以及他們對數(shù)據(jù)中心的有一定的了解,在發(fā)生事故的情況下,可以很快消除問題。如果缺乏全面分析故障原因的機會,在預防方面存在嚴重困難,而當只有幾位專家知道如何管理設施的所有過程的情況下,假如一名專家離去,就會衍生新的問題。
更先進的管理模型始終以服務為導向,它負責設施所有子系統(tǒng)的完整文書工作,且明確規(guī)定了更換和預防性設備維護的規(guī)則及程序,并對其安裝的移動進行了徹底的運算,同時提供營運報告關(guān)于工程系統(tǒng)參數(shù)、事故說明和人員事故的消除措施。
以服務為導向的數(shù)據(jù)中心管理方式主要特色是具主動性,該模型不僅可以分析錯誤的原因,還可以在問題發(fā)生之前進行預測,建立快速恢復服務的解決方法。當然,如果不為所有數(shù)據(jù)中心子系統(tǒng)導入單一的自動化監(jiān)視和調(diào)度系統(tǒng),這種方法是不可行的。根據(jù)經(jīng)驗顯示,因缺乏高技術(shù)的專家,往往錯誤都是屬于人為,但如果調(diào)度中心屬于是自動化的,且所有設施維護規(guī)則和規(guī)章都已制定,那大多數(shù)人員只需要基本知識即可。
監(jiān)控與調(diào)度
大約十年前,將所有工程子系統(tǒng)結(jié)合至單一平臺DCIM(數(shù)據(jù)中心基礎(chǔ)架構(gòu)管理)解決方案。DCIM的第一個版本可以草擬方案或計劃,并維護文書工作,但現(xiàn)在的功能已有很大變化, 現(xiàn)代的解決方案可做到與不同制造商設備中的內(nèi)置監(jiān)視工具進行相連,并連接其他傳感器、控制器、訊號轉(zhuǎn)換器和數(shù)據(jù)收集系統(tǒng),收集機柜至各級別的能耗,機柜、冷卻系統(tǒng)和內(nèi)部管道中的溫度和濕度,以及液體泄漏數(shù)據(jù)的信息,此為達成預期目的的最低要求。
一旦安裝了DCIM,客戶可擁有一個整合的監(jiān)控環(huán)境系統(tǒng),處理包括所有關(guān)鍵子系統(tǒng)和IT設備的數(shù)據(jù),主要任務是結(jié)合其中最大可用數(shù)據(jù)的流量,及時收集和處理數(shù)據(jù),使機房人員可以全面了解數(shù)據(jù)中心所有子系統(tǒng)的功能狀態(tài),包括實時的運算能力。這就是DCIM的另一個優(yōu)點,可以減少人為因素對數(shù)據(jù)中心子系統(tǒng)性能的影響。
選擇上的難題
企業(yè)導入DCIM的時機可能不盡相同,但最好在設施的設計時間導入DCIM,此時還可選擇不同制造商的設備,整合成現(xiàn)有獨立子系統(tǒng),在數(shù)據(jù)中心設計時間選擇解決方案不會引起任何問題,這通常由系統(tǒng)整合商完成,該系統(tǒng)整合商會幫助選擇必要的硬件和軟件。
現(xiàn)有數(shù)據(jù)中心的情況比較復雜,現(xiàn)在需要召集一個工作小組,其中包括相關(guān)部門的代表,且需列出欲監(jiān)控之基礎(chǔ)設施的所有參數(shù)和節(jié)點的列表,并按重要性從高到低的順序排列,并且審核基礎(chǔ)設施設備支持的協(xié)議和通信方式,再考慮要安裝哪些感應器和控制器。
利用這些信息,選擇了必買的軟件解決方案,再列出要擴充的設備去估算整體項目預算,將DCIM的導入完全外包是一個好主意,錯誤產(chǎn)生在設計時間的花費會比系統(tǒng)整合商的服務花費更多。最初DCIM系統(tǒng)是要本地導入的,但是現(xiàn)在許多開發(fā)者將其作為SaaS(軟件即服務)提供,這種方法可以大大減少支出。
優(yōu)化的立基點
數(shù)據(jù)中心運營的主要支出是電力成本,IT設備和冷卻系統(tǒng)的運作消耗了大量電費, 因此須先優(yōu)化能耗,能耗取決于許多的外部和內(nèi)部因素,例如,氣候和天氣條件(包括季節(jié)變化)會直接影響冷卻系統(tǒng),其中DCIM還可以分析電信設備以及其他子系統(tǒng)上負載增減時的試算。無法手動去計算所有的因素,但可以利用DCIM系統(tǒng)做到運算和分析實際的累積出統(tǒng)計數(shù)據(jù),從而找出基礎(chǔ)設施中的問題區(qū)域。
數(shù)據(jù)中心最關(guān)鍵的指標之一是能源使用效率(PUE)系數(shù),該系數(shù)顯示IT負載、冷卻和UPS運行花費了多少功率,配電系統(tǒng)花費多少能耗,PUE計算方式是將機房總用電量除以IT設備總用電量。起初,人們認為1.6到2.0的PUE系數(shù)是可以接受的,但是現(xiàn)在市場上追求更高效的數(shù)據(jù)中心,大家持續(xù)努力將PUE保持在 1.1到1.2的值之間。通常,機房能耗是在UPS的輸出、配電單位的輸出以及IT設備的實際使用情況下測量的。
根據(jù)獲得的數(shù)據(jù),可以準確地得出數(shù)據(jù)中心的能源效率,雖然PUE不能反映某些數(shù)據(jù)的細微差別,例如,無法試算服務器的停機時間或確認有問題的熱點來源,但PUE還是非常重要。還有,將PUE降低到接近1時,通常會導致數(shù)據(jù)中心的可靠性降低,事故和設備使用壽命的降低會抵消節(jié)能效果。
現(xiàn)代控制系統(tǒng)可以從服務器、機柜和配電設備收集能耗數(shù)據(jù),甚至可以監(jiān)視每個通訊點,可以以易于理解的直觀形式顯示關(guān)鍵資源消耗的統(tǒng)計信息,從而更容易找到能耗最高的區(qū)域來優(yōu)化成本花費,還可以找出負載較低的時間段,以便在這些時間段內(nèi)安排維護。能耗高峰分析可將能源儲備保持在10%-15%的范圍內(nèi),來取代手動控制的情況下的30%-40%,讓這也成為一筆可觀的成本節(jié)省。
DCIM解決方案還可監(jiān)視其他工程子系統(tǒng),例如,DCIM可繪制氣流以識別空調(diào)和氣候控制系統(tǒng)的問題區(qū)域,這些區(qū)域的用電量在機房中僅次于IT設備用電量。在嚴重問題出現(xiàn)、預防并迅速消除其問題之前,不要忘記進行故障排除,這可以提高基礎(chǔ)架構(gòu)的可靠性并降低成本。僅在小型服務器機房中才適合用手動控制,但在有數(shù)十個甚至數(shù)百個機柜的機房時,必須導入DCIM。
產(chǎn)業(yè)的展望
到目前為止,我們僅討論了基礎(chǔ)架構(gòu)工程,因為IT基礎(chǔ)架構(gòu)管理被認為是一項被區(qū)分開來的任務,通常跟DCIM有不同的系統(tǒng)。對于商業(yè)型的數(shù)據(jù)中心,IT設備的工作屬于客戶責任范圍,但是,虛擬化融合/超融合基礎(chǔ)架構(gòu)的發(fā)展正在逐漸改變這種狀況。今時,開發(fā)者正在開發(fā)可實時監(jiān)控單一實體設備上的虛擬服務器解決方案,IT供貨商正在其產(chǎn)品中嵌入大量感應器以監(jiān)控能耗和溫度。
虛擬化環(huán)境中的有效負載計劃必須涵蓋所有級別:操作系統(tǒng)和應用程序、服務器,存儲系統(tǒng)、電信設備和通訊管道,當然還包括物理資源,例如:電源,散熱,加濕系統(tǒng)等。DCIM解決方案不僅是大型數(shù)據(jù)中心的其中一環(huán),在不遠的未來,DCIM、虛擬化平臺和IT基礎(chǔ)架構(gòu)管理系統(tǒng)將會緊密整合。
共0條 [查看全部] 網(wǎng)友評論