人為失誤！數據中心故障主因分析

zero comment

Ai Finance Tech

人為失誤與電力故障仍是數據中心「死機」主因

2024年停機情況減少，但數據中心一旦出事依然「大鑊」

數據中心近年雖然停機事故減少同埋影響程度降低，但人為失誤依然係最難解決嘅老問題。根據Uptime Institute最新發表嘅《年度停機分析報告》，有多達三分之二至八成嘅大型事故都同人為因素有關。

Uptime執行研究總監Andy Lawrence表示：「整體停機事故有減少趨勢，不過數據中心營運者正面對越嚟越多無法控制嘅外部風險，例如電網限制、極端天氣、網絡供應商故障，同埋第三方軟件問題。即使風險環境變得更加波動，可靠性方面都見到有改善。」

數據顯示，過去三年有53%嘅數據中心營運者曾經遇到停機事故，對比2022年嘅60%、2021年嘅69%、以及2020年嘅78%，明顯有所下降。2024年報告中，只有9%嘅事故屬於嚴重或極嚴重，創下歷來最低紀錄。

不過，要徹底防止人為失誤，依然係數據中心營運最大障礙之一。Uptime認為，人為失誤通常係事故嘅「推手」而唔一定係「元兇」，但無論直接或間接，絕大部分事故都有人為因素參與。

舉例，Microsoft近年多次出現服務中斷，部分就係因為程式碼變動，例如2025年1月Azure雲服務出現故障，以及3月Microsoft 365大規模停機事件。

報告指出，近四成企業過去三年曾因人為失誤導致重大停機，當中有58%係員工無遵從操作程序，45%則因為程序本身設計有瑕疵。

更值得留意嘅係，因為無遵守程序而出現人為失誤嘅比率，較去年上升咗10個百分點。Uptime推斷，呢個現象同數據中心行業近年急速擴張，以及多個地區出現人手短缺有關。

為咗應對呢個問題，Uptime建議，與其只係改善文件同程序，不如加強員工培訓同實時操作支援，咁樣更有效減低風險。

有八成受訪營運者都認為，如果管理同程序做得更好，最近一次停機事故本來可以避免。

至於電力相關問題，依然係造成停機事故嘅主要元兇。超過一半重大事故同電力有關，四分之一受訪者表示，過去三年曾因電力故障導致嚴重IT停機。

當中最常見嘅係UPS（不間斷電源系統）失效，最近Google Cloud美國東岸數據中心就曾因UPS問題停擺六小時。其他電力鏈環節，例如供電不穩、後備發電機切換失誤等，都會造成事故。

Uptime亦指出，電網穩定性成為新憂慮。隨住需求上升、基建老化、極端天氣頻繁、再生能源供應不穩，未來停電風險只會增加，令數據中心必須投資更堅固嘅本地電力系統。以倫敦希思路機場附近數據中心為例，早前雖然附近停電，但因為設施本身夠硬淨，最終仍然可以正常運作，避免咗大規模航班受阻。

總括而言，數據中心業界加強投資同營運嚴謹，令到停機事故數量與嚴重程度雙雙下降，成為一個難得嘅成功故事。

但Uptime同時警告，隨住AI、自動化、IT同OT（營運技術）系統越嚟越複雜，操作失誤同網絡安全風險都會同步上升。

記者評論：數據中心「人」的短板，AI都幫唔到？

呢篇報道最令人深思嘅唔係技術失誤，而係「人」依然係最脆弱嘅一環。數據中心自動化愈來愈高，AI、監控系統、流程自動化樣樣齊，但最終一個人唔跟程序、或者程序本身設計有漏洞，就可以一夜之間令全球網絡「死機」。而且，隨住行業爆炸性增長，熟手技術人員唔夠用，新人又未必有足夠經驗，出錯機會更加大。

香港作為亞洲數據中心樞紐，呢個警號對本地行業同樣重要。無論你幾先進、幾自動化，最後都要靠人執行。與其單靠「寫多啲SOP」，不如投放多啲資源落員工訓練、模擬演習，甚至引入AI輔助決策，幫助新手減少出錯。

另一個值得關注嘅係，電力問題愈來愈嚴重。香港電網雖然出名穩定，但氣候變化、極端天氣、能源結構轉型都可能帶來新挑戰。未來數據中心設計，唔單止要追求PUE（能源使用效率），更要準備好應對突發停電嘅能力。

最終，所謂「零宕機」其實係神話，但減低風險、快速恢復、減少損失，先係現實世界可以追求嘅目標。AI、IT、OT融合只會令系統更複雜，管理層要學識「信得過技術，更加要信得過人」。數據中心嘅最大風險，永遠都係人——但如果管理得好，人都可以係最大優勢。

#datacenteroutages #humanerror #powerglitches alibaba alicloud

Related Articles