Facebook再次顛覆了數據中心基礎設施管理的傳統理念,將過(guò)去相對獨立的機房設施和服務(wù)器硬件數據納入統一的管理軟件。
還記得2012年6月底的“閏秒事件”嗎?當時(shí)網(wǎng)絡(luò )上關(guān)于Java、Hadoop和Apache Cassandra數據庫等技術(shù)的閏秒問(wèn)題吐槽聲不斷。包括Reddit、Foursquare等大型網(wǎng)站紛紛中招,Facebook服務(wù)器CPU使用率瞬間升至100%,耗電量瞬間飆升,導致Facebook位于弗吉尼亞數據中心的斷路器發(fā)生故障,結果300個(gè)機架宕機。
一個(gè)不起眼的閏秒問(wèn)題給互聯(lián)網(wǎng)帶來(lái)的實(shí)質(zhì)性沖擊遠遠超過(guò)Y2K問(wèn)題!
而對于Facebook的工程師來(lái)說(shuō),從閏秒問(wèn)題能吸取的最大教訓就是考慮開(kāi)發(fā)出能整合第三方建筑管理軟件和Facebook自主開(kāi)發(fā)的服務(wù)器性能監測工具的新型管理軟件。
Facebook網(wǎng)站運營(yíng)副總裁Tom Furlong最近在接受媒體采訪(fǎng)的時(shí)候透露,Facebook最新的數據中心管理軟件能夠將溫度、濕度等戶(hù)外信息與整棟建筑的能耗,以及CPU存儲和內存方面的數據進(jìn)行綜合分析和管理。
過(guò)去幾個(gè)月中,Facebook推出了新版本的數據中心基礎設施管理(DCIM)項目,以及一個(gè)全新的集群規劃系統用于將所有數據都可視化。Facebook計劃今年內更大范圍地推廣其DCIM項目。
Facebook新推的數據中心管理軟件可以減少工程師設計數據中心性能優(yōu)化方案的時(shí)間。“從過(guò)去的12小時(shí)縮短到半個(gè)小時(shí)”Furlong說(shuō)道。
與此同時(shí),一體化的數據中心管理軟件還能幫助Facebook進(jìn)一步提高其數據中心的能耗效率,同時(shí)減少了新建數據中心的需求。
Furlong預計Facebook將在明年1月的開(kāi)放計算峰會(huì )上討論一體化數據中心管理軟件,但還不確定是否會(huì )像Open Compute Project的數據中心硬件設計一樣向公眾公開(kāi)。目前的一體化管理軟件中集成了很多Facebook自有的監控工具,而這些是Facebook所不愿意公開(kāi)的。