幾年前,Facebook關(guān)閉了一個(gè)數據中心,以測試其應用的靈活性。該公司工程主管杰瑞?帕瑞科斯表示這個(gè)測試順利。該數據中心的關(guān)閉測試沒(méi)有干擾客戶(hù)對Facebook網(wǎng)站的訪(fǎng)問(wèn)。
Facebook和其它網(wǎng)絡(luò )規模的數據中心運營(yíng)商投資數億美元甚至數十億美元建立全球性的互聯(lián)網(wǎng)服務(wù),將重點(diǎn)轉向數據中心的彈性冗余和自動(dòng)化的基礎設施–電源和冷卻系統–軟件驅動(dòng)的故障。一個(gè)由許多服務(wù)器組成的全球分布式系統,可以很容易地失去某些服務(wù)器,而不會(huì )對應用程序的性能有任何重大的影響。
這并不是說(shuō)數據中心運營(yíng)商已經(jīng)放棄了備份發(fā)電機,UPS系統,自動(dòng)轉換開(kāi)關(guān)。人們仍然可以在Facebook數據中心可以看到所有這些東西,只是這些設施不再是最后單一的防線(xiàn)。
如今,Facebook公司開(kāi)放一些軟件工具的源碼,其內置的軟件工具可以幫助工程師在幾秒鐘內檢測到電力中斷的位置,并迅速隔離故障,避免更大范圍的問(wèn)題。
該工具是一個(gè)名為Net NORAD系統,可以不斷監控整個(gè)Facebook的數據中心基礎設施的數據包丟失率和延遲。并使用數據分析,可以檢測到異常模式和觸發(fā)警報,通常發(fā)生在30秒內的故障。
“我們的規模意味著(zhù)設備故障每天都有可能發(fā)生而且確實(shí)在發(fā)生,我們努力阻止那些必然事件對任何使用我們的服務(wù)的客戶(hù)的影響。”Facebook公司網(wǎng)絡(luò )工程師彼得?切赫拉普科霍爾在一篇博客文章中寫(xiě)道。“最終的目標是檢測網(wǎng)絡(luò )中斷,并在幾秒鐘內自動(dòng)地減少網(wǎng)絡(luò )干擾。相反,采用人工調查可能需要以分鐘計算,甚至是小時(shí)。”
Facebook公司的Net NORAD組件是開(kāi)源的響應者,系統采用一組服務(wù)器不斷監測Facebook公司數據中心的所有服務(wù)器,基于他們接收響應數據包丟失和延遲的數據,并采用自動(dòng)確定故障確切位置的工具fbtracert。