六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

人為失誤!數據中心故障主因分析

人為失誤與電力故障仍是數據中心「死機」主因

2024年停機情況減少,但數據中心一旦出事依然「大鑊」

數據中心近年雖然停機事故減少同埋影響程度降低,但人為失誤依然係最難解決嘅老問題。根據Uptime Institute最新發表嘅《年度停機分析報告》,有多達三分之二至八成嘅大型事故都同人為因素有關。

Uptime執行研究總監Andy Lawrence表示:「整體停機事故有減少趨勢,不過數據中心營運者正面對越嚟越多無法控制嘅外部風險,例如電網限制、極端天氣、網絡供應商故障,同埋第三方軟件問題。即使風險環境變得更加波動,可靠性方面都見到有改善。」

數據顯示,過去三年有53%嘅數據中心營運者曾經遇到停機事故,對比2022年嘅60%、2021年嘅69%、以及2020年嘅78%,明顯有所下降。2024年報告中,只有9%嘅事故屬於嚴重或極嚴重,創下歷來最低紀錄。

不過,要徹底防止人為失誤,依然係數據中心營運最大障礙之一。Uptime認為,人為失誤通常係事故嘅「推手」而唔一定係「元兇」,但無論直接或間接,絕大部分事故都有人為因素參與。

舉例,Microsoft近年多次出現服務中斷,部分就係因為程式碼變動,例如2025年1月Azure雲服務出現故障,以及3月Microsoft 365大規模停機事件。

報告指出,近四成企業過去三年曾因人為失誤導致重大停機,當中有58%係員工無遵從操作程序,45%則因為程序本身設計有瑕疵。

更值得留意嘅係,因為無遵守程序而出現人為失誤嘅比率,較去年上升咗10個百分點。Uptime推斷,呢個現象同數據中心行業近年急速擴張,以及多個地區出現人手短缺有關。

為咗應對呢個問題,Uptime建議,與其只係改善文件同程序,不如加強員工培訓同實時操作支援,咁樣更有效減低風險。

有八成受訪營運者都認為,如果管理同程序做得更好,最近一次停機事故本來可以避免。

至於電力相關問題,依然係造成停機事故嘅主要元兇。超過一半重大事故同電力有關,四分之一受訪者表示,過去三年曾因電力故障導致嚴重IT停機。

當中最常見嘅係UPS(不間斷電源系統)失效,最近Google Cloud美國東岸數據中心就曾因UPS問題停擺六小時。其他電力鏈環節,例如供電不穩、後備發電機切換失誤等,都會造成事故。

Uptime亦指出,電網穩定性成為新憂慮。隨住需求上升、基建老化、極端天氣頻繁、再生能源供應不穩,未來停電風險只會增加,令數據中心必須投資更堅固嘅本地電力系統。以倫敦希思路機場附近數據中心為例,早前雖然附近停電,但因為設施本身夠硬淨,最終仍然可以正常運作,避免咗大規模航班受阻。

總括而言,數據中心業界加強投資同營運嚴謹,令到停機事故數量與嚴重程度雙雙下降,成為一個難得嘅成功故事。

但Uptime同時警告,隨住AI、自動化、IT同OT(營運技術)系統越嚟越複雜,操作失誤同網絡安全風險都會同步上升。

記者評論:數據中心「人」的短板,AI都幫唔到?

呢篇報道最令人深思嘅唔係技術失誤,而係「人」依然係最脆弱嘅一環。數據中心自動化愈來愈高,AI、監控系統、流程自動化樣樣齊,但最終一個人唔跟程序、或者程序本身設計有漏洞,就可以一夜之間令全球網絡「死機」。而且,隨住行業爆炸性增長,熟手技術人員唔夠用,新人又未必有足夠經驗,出錯機會更加大。

香港作為亞洲數據中心樞紐,呢個警號對本地行業同樣重要。無論你幾先進、幾自動化,最後都要靠人執行。與其單靠「寫多啲SOP」,不如投放多啲資源落員工訓練、模擬演習,甚至引入AI輔助決策,幫助新手減少出錯。

另一個值得關注嘅係,電力問題愈來愈嚴重。香港電網雖然出名穩定,但氣候變化、極端天氣、能源結構轉型都可能帶來新挑戰。未來數據中心設計,唔單止要追求PUE(能源使用效率),更要準備好應對突發停電嘅能力。

最終,所謂「零宕機」其實係神話,但減低風險、快速恢復、減少損失,先係現實世界可以追求嘅目標。AI、IT、OT融合只會令系統更複雜,管理層要學識「信得過技術,更加要信得過人」。數據中心嘅最大風險,永遠都係人——但如果管理得好,人都可以係最大優勢。

Chat Icon