
根據Azure的服務(wù)健康狀態(tài)表(上圖),受損最嚴重的就是基於美國中南部數據中心的各式服務(wù),從API管理、應用程式閘道、App Service、自動(dòng)化、適用於MySQL與PostgreSQL的Azure資料庫、Azure Cosmos DB、Azure監視器、語(yǔ)言或機器學(xué)習服務(wù)或VSTS等都被波及。
盡管意外是發(fā)生在美國中南部的數據中心,但除了座落在當地的使用者無(wú)法存取帳號之外,有監於內部架構的相依性,大多數的美國客戶(hù)也無(wú)法使用發(fā)行管理(Release Management)功能,亦無(wú)法載入基於第三方工具的儀表板,所有區域的Mac Pools也都受到影響。
根據微軟的說(shuō)法,數據中心的故障源自於一連串的骨牌效應,主要是因為美國中南部一個(gè)數據中心附近出現了包括雷擊在內的惡劣天氣,造成電源的電壓突然升高,進(jìn)而影響冷卻系統,為了維護資料與硬體的完整性,數據中心啟動(dòng)了關(guān)機的自動(dòng)化程序,才會(huì )讓服務(wù)中斷。
冷卻系統為現代數據中心最關(guān)鍵的元素之一,因為它必須替密集容納數千臺伺服器的數據中心降溫,且大多數的云端服務(wù)供應商為了因應突然竄升的溫度時(shí),都有自動(dòng)關(guān)機程序的配置,只是在關(guān)機後也必須花一點(diǎn)時(shí)間重啟所有服務(wù)。
根據Azure目前的復原狀態(tài),微軟已經(jīng)重啟美國中南部數據中心的電源,也已恢復Azure Storage縮放單位的軟體負載平衡,目前仍在進(jìn)行中的則是恢復對Azure Storage縮放單位的影響,以及恢復其它仰賴(lài)當地Azure Storage的各式服務(wù)。