服務項目
(報批稿)
引言
隨著各行業(yè),、各領域信息化工作的深入開展,,有越來越多的信息系統(tǒng)進入運行維護階段。然而,,提供運行維 護服務的各類組織的能力水平參差不齊,,需方缺乏評價或選擇供方的方法、手段及規(guī)范,。本標準對不同服務對 象,、服務過程和服務需求的能力要素進行抽象,并通過關鍵指標對服務能力進行評價,;針對不同服務對象的運行 維護服務過程,、服務交付內容及特定服務需求提出了要求。
本部分規(guī)定了數據中心運行維護服務的對象,、服務策略,、交付內容等要求,旨在規(guī)范數據中心運行維護服務供 方(以下簡稱供方)行為,、改進服務能力及提高數據中心運行維護服務的工作效率。數據中心運行維護服務的服 務需方(以下簡稱需方)可以參照本部分提出明確的數據中心運行維護服務需求,。本部分亦適用于需方選擇和評 價供方,。
本部分的第4章提出了數據中心運行維護服務的對象和服務的交付內容,以及它們之間的關系,。
本部分的第5章闡述了數據中心運行維護服務的基本策略,。
本部分的第6章對數據中心運行維護服務交付內容進行了詳細的描述。
1 范圍
本部分規(guī)定了數據中心運行維護服務的對象,、服務策略,、交付內容等要求。
本部分適用于規(guī)范供方針對數據中心服務對象提供的運行維護服務內容,,也可供需方參考使用,。
2 規(guī)范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,,僅注日期的版本適用于本文件,。凡是不 注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件,。
GB/T 22080信息技術 安全技術 信息安全管理體系 要求
GB/T 22081信息技術 安全技術 信息安全管理實用規(guī)則
GB/T 24405.1-2009信息技術 服務管理 第1部分:規(guī)范
SJ/T XXXXX.3信息技術服務 運行維護 第3部分:應急響應規(guī)范
3 術語,、定義和縮略語
3.1 術語和定義
下列術語和定義適用于本文件。
3.1.1
數據中心datacenter
以信息技術為支撐,,實現應用集中處理和數據集中存放,,提供數據的構建、交換,、集成,、共享等信息服務的 基礎環(huán)境。
3.1.2
配置管理數據庫configuration management database
包含每一個配置以及配置項之間重要關系的詳細情況的數據庫,。
[GB/T 24405.1-2009信息技術服務管理-規(guī)范,定義2.5]
3.1.3
工作說明書statement of work
合同的重要附件之一,,詳細規(guī)定了合同雙方在合同期內應完成的工作,如項目范圍,、工作描述,、進度表、風險,、需方責任等,。
3.1.4
服務級別協(xié)議service Level agreement
服務提供商與服務需方之間簽署的記錄了服務和約定服務級別的協(xié)議。
[GB/T 24405.1-2009信息技術服務管理-規(guī)范,定義2.13]
3.1.5
外部事件external events
為服務對象運行提供支撐的,、協(xié)議獲得的,、不可控、非自主運維的服務資源(例如互聯網、市電,、租賃的機 房等等)中斷引發(fā)的事件,。
3.1.6
系統(tǒng)事件system events
在服務對象范圍內的、自主管理或運維的系統(tǒng)資源服務中斷引發(fā)的事件,。
3.1.7
安全事件security events
由于安全邊界破壞,、安全措施或安全設施失效,造成的安全等級下降或信息被非法盜用等需方(數據中心) 利益被侵害的事件,。
3.1.8
虛擬資源池 Virtual resource pool
指通過使用虛擬化技術對數據中心的計算,、存儲、網絡等物理資源進行虛擬化,,通過管理軟件來動態(tài)部署給 用戶使用,,這些被虛擬化集中管理的資源叫做虛擬資源池 Virtual Resource pool。
3.1.9
虛擬機virtual machine
指通過軟件模擬的具有完整硬件系統(tǒng)功能的,、運行在一個完全隔離環(huán)境中的完整計算機系統(tǒng),。
3.1.10
宿主機 hypervisor
指運行虛擬化軟件,并為虛擬機運行提供環(huán)境的物理機器,。
3.1.11 電源使用效率 Power Usage Effectiveness 數據中心消耗的所有能源與IT負載使用的能源之比,,簡稱PUE。
3.2 縮略語
ACL 訪問控制列表(Access Control List)
APU 輔助(或備用)電源設備(Auxiliary Power Units)
ATS 自動轉換開關(Automatic Transfer Switch)
CMDB 配置管理數據庫(Configuration Management Database)
CPU 中央處理器(Central Processing Unit)
HBA 主機總線適配器(Host Bus Adapter)
IO 輸入/輸出(Input/ Output)
IOPS 每秒進行讀寫(I/O)操作的次數(Input/ Output Operations Per Second)
IP 互聯網協(xié)議(Internet Protocol)
LED 發(fā)光二極管(Light Emitting Diode)
PUE 電源使用效率(Power Usage Effectiveness )
QOS 服務質量(Quality Of Services)
RAID 廉價冗余磁盤陣列(Redundant Arrays of Inexpensive Disks)
SAN 存儲區(qū)域網絡(Storage Area Network)
SLA 服務級別協(xié)議(Service Level Agreement)
SOW 工作說明書(Statement Of Work)
UPS 不間斷電源(Uninterrupted Power Supply)
VDC 虛擬設備上下文(Virtual Device Context)
VLAN 虛擬局域網(Virtual Local Area Network)
VPC 虛擬端口通道(Virtual Port Channel)
VPN 虛擬專用網(Virtual Private Network)
VRF 虛擬路由轉發(fā)(Virtual Routing and Forwarding)
VSS 虛擬交換系統(tǒng)(Virtual Switching System)
VSwitch 虛擬交換機(Virtual Switch)
4 服務對象與交付內容
4.1 服務對象與交付內容的對應關系
4.2 服務對象 根據數據中心的特點,,數據中心的服務對象分為機房基礎設施,、物理資源、虛擬資源,、平臺資源,、應用資源 和數據六類。這六類對象的集合構成應用系統(tǒng):
a) 機房基礎設施:指確保機房環(huán)境滿足計算機相關設備正常運行要求的各類設施,,包括機房電力 系統(tǒng) (供配電系統(tǒng)、UPS系統(tǒng),、發(fā)電機系統(tǒng)),、空調系統(tǒng)(精密空調系統(tǒng)、新風系統(tǒng)),、安防系統(tǒng)(防雷接地系統(tǒng),、 消防系統(tǒng)、視頻監(jiān)控系統(tǒng),、門禁系統(tǒng)),、綜合布線系統(tǒng)等;
b) 物理資源(網絡及網絡設備,、服務器設備,、存儲設備)
1) 網絡及網絡設備:指保持數據中心內部各系統(tǒng)之間、數據中心與外部系統(tǒng)連接的網絡及網絡設備,包括內 部局域網,、外部廣域網,、互聯網、網絡線路(包括專線,、撥號網絡,、VPN)和網絡設備(包括路由器、交換機,、防火墻,、入侵檢測、負載均衡,、語音以及通信傳輸設備等),;
2) 服務器設備:實現各種計算服務的硬件設備,包含PC服務器,、小型機和主機等,;
3) 存儲設備:實現數據存放的各種存儲設備,包括磁盤陣列和磁帶庫等,。
c) 虛擬資源(虛擬網絡資源池,、虛擬計算資源池、虛擬存儲資源池)
1) 虛擬網絡資源池:通過各種網絡虛擬化技術(如:VLAN,、VPN,、VDC、VPC,、VRF,、VSwitch、VSS 等), 將數據中心內網絡設備進行統(tǒng)一管理和調度,,構成網絡資源池,,對業(yè)務系統(tǒng)需要的網絡資源進行合理、靈 活的分配,;
2) 虛擬計算資源池:指通過虛擬化技術,,將數據中心內計算設備進行統(tǒng)一管理和調度,構成計算資源池,,對 需要不同計算能力的業(yè)務系統(tǒng)進行合理,、靈活的分配;
3) 虛擬存儲資源池:通過虛擬化技術,,將數據中心存儲存儲設備進行統(tǒng)一管理和調度,,構成存儲資源池,對 業(yè)務系統(tǒng)需要的存儲空間容量進行合理,、靈活的分配,。
d) 平臺資源(操作系統(tǒng)、數據庫、中間件等):指支持應用軟件運行的系統(tǒng)軟件,,包括操作系統(tǒng),、 數據 庫、中間件等,;
e) 應用資源:指實現用戶特定需求的應用軟件,;
f) 數據:指由應用軟件產生、處理,、并存儲于數據中心的業(yè)務數據,。
4.3 交付內容
數據中心的服務交付內容包括調研評估、例行操作,、響應支持和優(yōu)化改善四類,,其中:
a) 調研評估服務:根據需方、服務相關方或系統(tǒng)運行的需求,,對服務對象的運行狀況,、運行環(huán)境進行現狀調 研、系統(tǒng)分析和評估并提出相應的建議和服務方案,;
b) 例行操作服務:按照約定條件觸發(fā)或預先規(guī)定的常態(tài)服務,,分為監(jiān)控、預防性檢查和常規(guī)作業(yè),;
1) 監(jiān)控:指采用各類工具和技術,,對數據中心服務對象的動態(tài)指標、靜態(tài)指標,、運行狀況和發(fā)展趨勢等進行 記錄,、分析和告警;
2) 預防性檢查:指為保證服務對象的持續(xù)正常運行,,供方根據服務對象的監(jiān)控記錄,、運行條件和運行狀況進 行檢查和趨勢分析,發(fā)現其脆弱性,,以便消除或改進,;
3) 常規(guī)作業(yè):指供方對數據中心服務對象進行的日常維護,包括定期保養(yǎng),、配置備份、數據備份,、恢復,、定 期重啟等活動,以保證服務對象的穩(wěn)定運行,。
c) 響應支持服務:根據響應的前提不同,,分為事件驅動響應、服務請求響應和應急響應;
1) 事件驅動響應:由于不可預測原因導致服務對象整體或部分性能下降,、功能喪失,,觸發(fā)將服務對象恢復到 正常狀態(tài)的服務活動。事件驅動響應的處理過程首先應爭取在最短的時間內恢復服務或啟用備份資源,,維持服務 的持續(xù)提供,,并應對事件做出分析、明確誘發(fā)事件的原因和影響的范圍,,采取有效的防控措施,,減少類似事件的 再次發(fā)生。事件驅動響應的觸發(fā)條件包括外部事件,、系統(tǒng)事件和安全事件三種,;
2) 服務請求響應:由于需方提出各類服務請求,引發(fā)的需要針對服務對象,、服務等級做出調整或修改的響應 型服務,。服務請求響應需要根據總體服務策略并參考已有的SLA/ SOW做出判斷,對服務的實施進行影響評估,, 制定詳細的實施方案和回退措施,,并在條件允許的情況下執(zhí)行實施方案和回退方案的測試。變更型響應服務實施 完成后,,應進行總結,,確認已達到預期的目標。此類響應可能涉及服務等級變更,、服務范圍變更,、技術資源變 更、服務提供方式變更等,;
3) 應急響應:指在數據中心出現跨越預定的應急響應閾值的重大事件,、發(fā)生重大自然災害、由于政府部門發(fā) 出行政指令或需方提出要求時,,應當啟動應急處理程序,。應急響應的服務實施及相關要求見SJ/T XXXXX.3。
d) 優(yōu)化改善服務:包括適應性改進,、增強性改進和預防性改進三種類型,;
1) 適應性改進:為保持數據中心服務對象在已變化或正在變化的環(huán)境中可持續(xù)運行而實施的改造;
2) 增強性改進:根據數據中心的運行需求或由于服務對象的缺陷,,采取相應改進措施增強數據中心的安全 性,、可用性和可靠性;
3) 預防性改進:檢測和糾正數據中心服務對象運行過程中潛在的問題或缺陷,,以降低系統(tǒng)風險,,滿足數據中 心未來可靠運行的需求,。
5 運行維護服務基本策略
5.1 總則
為保證數據中心的業(yè)務連續(xù)性和信息安全性,應制定有效的運行維護策略來保證服務交付的質量,,兼顧運行 維護過程(及時和規(guī)范)和運行維護結果(可用和安全),,實現“事前防范,風險前移,;事中控制,,快速響應; 事后改進,,持續(xù)評估”的持續(xù)改進原則,。
5.2 可用性
供方應采取適當措施,確保按服務協(xié)議提供長期,、持續(xù)的滿足需求的優(yōu)質服務,,保持服務對象符合SLA的可 用性要求。包括:
a) 供方在服務實施時,,應建立相關的作業(yè)流程和響應機制,,必要時按需方要求制定系統(tǒng)冗余和備份規(guī)范,以 滿足需方對可用性的要求,;
b) 進行合理的人員崗位設置和職責定義,,應保證專人專崗并設置人員備份;
c) 應配備具有相應能力的人員和必要的工具,,并定期進行專業(yè)培訓,,以提高服務可用性。人員能力具體要求 見附錄A,;
d) 應選擇適用的運行維護技術,,以保證服務的可用性;
e) 根據運行維護服務級別要求,,必要時應建立體系架構的關鍵健康檢查點,,并配備相應的運行維護工具,以 保證服務水平,。運行維護工具等級見附錄B,;
f) 供方應根據服務要求配備足夠的資源,避免由于資源的缺失導致對服務的可用性帶來影響,。
5.3 安全性
服務的供,、需雙方應采取各種安全手段或措施,有效控制數據中心運行維護服務的各個環(huán)節(jié),,保護數據中心 運行維護服務中的物理安全,、網絡安全、系統(tǒng)安全,、應用安全和數據安全,。包括:
a) 建立適當的信息安全管理機制,以規(guī)范數據中心運行維護服務人員的信息安全行為,。信息安全管理可參照 GB/T 22080,、GB/T 22081等標準的有關規(guī)定執(zhí)行;
b) 應對數據中心運行維護服務人員采取有效的信息安全管理措施,,如進行人員背景調查,、簽訂安全保密協(xié)議 等;
c) 應對數據中心運行維護服務人員進行相關安全管理及安全要求培訓,,并進行適當的檢查,,以確保服務人員 了解并遵守數據中心安全、保密相關規(guī)定,;
d) 應充分關注數據中心業(yè)務安全需求,,結合信息安全技術與管理標準,進行適當的安全評估,,提供相應的安 全建議,,并對服務對象進行適當的監(jiān)控和保護;
e) 應對數據中心安全進行監(jiān)控,、分析,,把安全風險控制在可接受范圍內,防止安全事件發(fā)生,;
f) 應建立有效的安全通報機制,,以及時通報安全事件相關情況和相應防范處理措施等。
5.4 及時性
供方應采取適當的手段確保提供滿足SLA時間指標要求的運行維護服務,。包括:
a) 對事件,、問題、變更建立明確的分級策略,,并與服務窗口時間,、響應時間等指標相匹配;b) 建立可確保滿足需方要求的溝通聯絡機制,,保持溝通渠道通暢,,以實現對服務需求的及時響應;
c) 建立有效的服務資源調度機制及與服務相關方的協(xié)同機制,,配置必要的備品備件,,以提供及時的服務保 障;
d) 特殊時間段(如法定節(jié)假日或重大事件等),,應提升響應級別,,提供必要的現場支持;
e) 建立有效機制,,周期性對事件級別定義進行更新,,以確保定義準確有效,。
5.5 規(guī)范性
供方應建立適當的服務管理流程、服務活動指導文件或實施規(guī)則,,以保證服務過程的規(guī)范運作,。包括:
a) 建立有效的服務管理流程文件,以保證服務過程實施規(guī)范性,;
b) 建立或遵循需方的數據中心相關管理制度,,如出入場管理制度、安??刂浦贫鹊?;
c) 對于例行操作服務,應制定詳細,、可操作的技術手冊,,以降低操作風險;
d) 對于非例行操作服務(響應支持,、優(yōu)化改善,、調研評估),應在實施前,,制定詳細的實施方案,,并進行風 險評估及分析,采取相應的風險規(guī)避措施和回退手段,;
e) 在服務過程中進行的任何活動,,應建立服務檔案,可形成服務報告(見附錄C),,保留完整的服務記錄,。
6 運行維護交付內容
6.1 機房基礎設施
6.1.1 服務對象
服務對象包括空調系統(tǒng)(精密空調系統(tǒng)、新風系統(tǒng)),、電力系統(tǒng)(供配電系統(tǒng),、UPS系統(tǒng)、發(fā)電機系統(tǒng)),、 安防系統(tǒng)(防雷接地系統(tǒng),、消防系統(tǒng)、視頻監(jiān)控系統(tǒng)和門禁系統(tǒng))以及綜合布線系統(tǒng),。
6.1.2 調研評估
機房基礎設施調研評估服務內容包含但不限于:
a) 空調系統(tǒng)(精密空調系統(tǒng),、新風系統(tǒng)):機房環(huán)境指標分析及改進建議、機房熱點分析及布置改進建議,、 機房送風,、回風方式改進建議,新風風量,、風壓指標分析及改進建議,;輔助制冷單元配置建議等,;
b) 電力系統(tǒng)(供配電系統(tǒng)、UPS系統(tǒng),、發(fā)電機系統(tǒng)):機柜供電分析及改進建議,、機房回路調整分析調整建 議、機房擴容建議等,;發(fā)電機負荷分析及調整建議等;UPS運行分析及擴容建議,,超過設計使用壽命的電池更換 建議,、整流直流電容、逆變交流電容等,;
c) 安防系統(tǒng)(防雷接地系統(tǒng),、消防系統(tǒng)、視頻監(jiān)控系統(tǒng)和門禁系統(tǒng)):防雷接地系統(tǒng)分析及改進建議,、消防 系統(tǒng)現狀分析和改進建議(按照當地消防管理部門管理要求),、視頻監(jiān)控系統(tǒng)的分析和改進建議、門禁系統(tǒng)的分 析和改進建議等,;
d) 綜合布線系統(tǒng)等:光纖,、銅纜容量、使用效率分析,;應用環(huán)境及性能分析,;數量、路由改進或擴容建議,; 級別提升建議等,。
e) 機房電源使用效率:通過對機房PUE連續(xù)監(jiān)測分析,提供機房能效改進建議,,包括但不限于:空調系統(tǒng)優(yōu) 化(消除機房熱點,、冷熱通道遏制、改善送回風,、使用節(jié)能型設備等),、電力系統(tǒng)優(yōu)化(回路優(yōu)化、使用節(jié)能型 設備等),、實施容量管理(對機柜的電力容量,、制冷容量及空間容量進行統(tǒng)籌管理,以充分利用資源)等,。
6.1.3 例行操作 機房基礎設施的例行操作服務包括:監(jiān)控,、預防性檢查、常規(guī)作業(yè),。
6.1.3.1 監(jiān)控
對機房基礎設施的監(jiān)控
6.1.3.2 預防性檢查
應在監(jiān)控服務的基礎上對機房基礎設施進行預防性檢查,。包括:性能檢查和脆弱性檢查,。
6.1.3.3 常規(guī)作業(yè)
機房基礎設施的常規(guī)作業(yè)包括基礎類操作、測試類操作和數據類操作,,其中:
a) 基礎類操作:按服務管理手冊的有關規(guī)定,,執(zhí)行設備的日常運行、維護和保養(yǎng),;
b) 測試類操作:按服務管理手冊的有關規(guī)定,,對機房基礎設施各系統(tǒng)功能、性能進行測試,;
c) 數據類操作:按事先規(guī)定的程序,,對機房基礎設施運行日志、記錄等數據進行操作,。
6.1.4 響應支持
6.1.4.1 事件驅動響應
針對設備的軟,、硬件故障引起的業(yè)務中斷或運行效率無法滿足正常運行要求,而進行的響應服務,,包括但不 限于:
a) 空調系統(tǒng):故障排查,、關閉部分機組以維持機房最低溫濕度指標、關閉新風系統(tǒng)等,;
b) 電力系統(tǒng):配電系統(tǒng)包括故障排查,、投入備用電源回路、關閉非重要回路等,;發(fā)電機系統(tǒng)包括故障排查,、 啟動發(fā)電機、油料補充等,;UPS系統(tǒng)包括故障排查,、旁路系統(tǒng)、關閉非重要輸出等,;
c) 安防系統(tǒng):防雷接地系統(tǒng)包括浪涌保護器復原,、更換,接地電阻降阻等,;消防系統(tǒng)包括故障排查,、系統(tǒng)啟 動、報警聯動,、疏散警示等,;視頻監(jiān)控系統(tǒng)包括故障排查、監(jiān)控頭或硬盤更換,、檢查告警,、數據恢復等;門禁系 統(tǒng)包括故障排查、手動開啟或關閉門禁系統(tǒng),、檢查告警或監(jiān)控記錄等,;
d) 綜合布線系統(tǒng):線纜更換等。
6.1.4.2 服務請求響應
根據應用系統(tǒng)運行需要或需方,、服務相關方的請求,,而進行的響應服務,包括但不限于:
a) 空調系統(tǒng):調整溫度,、濕度參數等,,調整新風量等;
b) 電力系統(tǒng):配電系統(tǒng)包括增減回路,、增減供電類型(如直流,、110V)等;分支回路相位調整等,;發(fā)電機 為指定負載供電等;UPS系統(tǒng)包括旁路操作,、為指定負載供電等,;
c) 安防系統(tǒng):防雷接地系統(tǒng)包括新設備接地等;消防系統(tǒng)包括增減終端設備,、檢查及提供告警及監(jiān)控記錄,、 備份或清除記錄等;視頻監(jiān)控系統(tǒng)包括調整攝像機位置,、增加攝像機,,增加錄像機容量等;門禁系統(tǒng)包括增加,、 刪減,、變更門禁權限等;
d) 綜合布線系統(tǒng):鏈路跳接,、跳線更換,,布線擴容等。
6.1.5 優(yōu)化改善
6.1.5.1 適應性改進
根據應用系統(tǒng)特點和運行需求,,對機房基礎設施進行調整,,包括但不限于:
a) 空調系統(tǒng):調整溫濕度參數等、調整機組位置,、增減新風風量等,;
b) 電力系統(tǒng):配電系統(tǒng)包括更換開關、導線以適配負載容量等,,發(fā)電機包括調整啟動方式等,;
c) 安防系統(tǒng):調整防雷接地系統(tǒng)、消防系統(tǒng)、視頻監(jiān)控系統(tǒng)和門禁系統(tǒng),,以適應應用系統(tǒng)的變化,;
d) 綜合布線系統(tǒng):調整綜合布線系統(tǒng),以適應應用系統(tǒng)的變化,。
6.1.5.2 增強性改進
根據應用系統(tǒng)的特點和運行需求,,通過對機房基礎設施的運行記錄、趨勢的分析,,對機房基礎設施進行調 整,、擴容或升級,包括但不限于:
a) 空調系統(tǒng):增減精密空調機組,、增減APU單元,,增加新風機組、預處理裝置等,;
b) 電力系統(tǒng):配電系統(tǒng)包括增加回路,、增加ATS設備等;UPS系統(tǒng)包括增加主機數量,、增加電池數量等,;
c) 安防系統(tǒng):防雷接地系統(tǒng)包括增加冗余引下線、接地裝置,,降低接地電阻阻值等,;消防系統(tǒng)
關注卓越空間
關注卓越微博
關注卓越微信