• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>

    數據中心停機中斷真的是無(wú)法回避的現實(shí)嗎?

    2015-11-05 14:17:29   作者:   來(lái)源:機房360   評論:0  點(diǎn)擊:


      最近幾個(gè)星期以來(lái),我們已經(jīng)陸續聽(tīng)到了不少關(guān)于數據中心中斷事故影響到一些具有較高知名度的美國企業(yè)的報道,包括華爾街日報、紐約證券交易所和美國聯(lián)合航空公司在一周內均受到不同程度的影響。盡管想要百分百的防止每一次停機中斷事件的發(fā)生是不可能的,但這些被媒體高度宣傳的問(wèn)題可能會(huì )花費大量的資金成本,并會(huì )顯著(zhù)影響到客戶(hù)如何看待一家企業(yè),進(jìn)而影響到企業(yè)形象和聲譽(yù)。為此,我們特地采訪(fǎng)了業(yè)界的專(zhuān)家們,向他們咨詢(xún)了一系列的問(wèn)題:包括企業(yè)應該做些什么工作,以便能夠維持高水平的正常運行時(shí)間?導致停機中斷的原因都包括了哪些常見(jiàn)的錯誤?以及客戶(hù)對于數據中心的安全性和彈性的平均期望如何?或者說(shuō)偶爾的停機中斷事故是企業(yè)正常運維的現實(shí)?

      密爾沃基地區技術(shù)學(xué)院Brian Kirsch

      可用性和其他一切之間的平衡是IT的基石之一。我們都希望我們的系統在我們需要時(shí)均能夠保持正常運行,為我們所用。而當您需要在系統的可用性與需要做哪些工作以獲得這種可用性之間進(jìn)行平衡時(shí),問(wèn)題就出現了。您所需關(guān)注的問(wèn)題不僅僅是簡(jiǎn)單的只是成本方面的問(wèn)題,其復雜性和測試才是促使一切協(xié)同工作的關(guān)鍵。僅僅由某一款單一的硬件或軟件產(chǎn)品就能夠提供可用能力的理念在今天已經(jīng)不存在了。雖然我們今天所使用的備份和災難恢復產(chǎn)品已經(jīng)變得更加廣泛且有效,但相應的應用程序也已經(jīng)變得更加復雜了。

      這種應用程序及其可用性之間的不斷競爭,會(huì )在當企業(yè)所使用的災難恢復產(chǎn)品無(wú)法跟上的應用程序的需求和設計時(shí),造成大范圍的停機中斷事故。

      然而,硬件和軟件也僅僅只是停機中斷事故難題的一小部分。許多停機中斷的發(fā)生是由于系統故障和變化所造成的。我們通過(guò)設計以防止發(fā)生故障失敗;我們的安全系統防止未經(jīng)授權的變化。然而,所有這一切在前端的努力都不能百分百的防止每一次停機中斷的發(fā)生。我們仍要積極探索和尋找處理災難恢復和停機中斷的新方法。讓我們秉承著(zhù)企業(yè)必將發(fā)生停機中斷,而不是試圖簡(jiǎn)單地阻止他們的理念來(lái)設計我們的系統。積極的面對故障和運行失敗能夠給我們真正的應用程序彈性,因為故障保護不再僅僅是表面的事情了。然后,我們可以測試并證明我們有能力處理故障失敗。

      在這方面,沒(méi)有比Netflix及其Chaos Monkey工程團隊更明顯的了。Netflix面臨大規模的亞馬遜EC2云重新啟動(dòng),同時(shí)還需要保持其在線(xiàn)服務(wù)的正常運轉。對于許多公司來(lái)說(shuō),EC2云的重啟會(huì )為他們帶來(lái)一些他們認為永遠不會(huì )看到且很少有針對性的進(jìn)行計劃以防止出現停機中斷的東西。另一方面,Netflix及其獨特命名的Chaos Monkey工程團隊則有一項計劃。在Netflix,Chaos Monkey的作用是定期反復針對故障失敗進(jìn)行測試鍛煉。通過(guò)不斷的測試、和在問(wèn)題造成大規模停機中斷事故之前對其進(jìn)行修正,Netflix公司已經(jīng)創(chuàng )建了一項專(zhuān)門(mén)處理故障運行失敗的服務(wù)設計,來(lái)確保可用性。

      LogicNow公司戴夫·索貝爾

      對于像紐約證券交易所、華爾街日報和美國航空公司這樣的企業(yè)和機構而言,出現任何形式的停機中斷事故幾乎都可以說(shuō)是一種恥辱。停機中斷事故所造成的成本損失可能是極其昂貴的,而鑒于計算資源又相對低廉,先進(jìn)的規劃則可以確保將停機中斷事故發(fā)生的幾率降低到最低限度。對于那些有關(guān)鍵需求的企業(yè)而言,他們現在可以很容易地在云中建立備份系統,而且只有在緊急情況下使用。例如,微軟的Windows Azure,僅針對活躍計算負載收取費用,這意味著(zhù)整個(gè)備份網(wǎng)絡(luò )可以在冷待機等待處理問(wèn)題。熱備份也可以設置最小的使用水平,確保為故障轉移做好準備。監控和管理軟件則應該始終被使用,繼續獲得更先進(jìn)的預測分析,以預測分析可能的停機事故。

      但是,溝通是緩解停機中斷事故影響的最重要的部分。對于一名因美國聯(lián)合航空公司發(fā)生停機中斷事故而被滯留的乘客來(lái)說(shuō),最令人沮喪的無(wú)疑是缺乏透明有效的信息。企業(yè)不得主動(dòng)不承認相關(guān)問(wèn)題,然后再根據承諾進(jìn)行交付。在社交媒體保持沉默和員工之間缺乏信息溝通可能是造成客戶(hù)服務(wù)體驗最糟糕的原因之一。

      Volanto公司吉姆·奧賴(lài)利

      安全系統怎么會(huì )發(fā)生運行失敗?這看起來(lái)似乎是一種矛盾,但對于美國聯(lián)合航空公司、紐約證券交易所和其他企業(yè)而言,最近都紛紛出現了狀況。他們的IT基礎設施到底有什么問(wèn)題?

      不斷增強的復雜性肯定是問(wèn)題原因的一部分。通常,企業(yè)已經(jīng)有一些被修補和擴展過(guò)多次的舊系統。這導致了硬件和軟件的漏洞。美國聯(lián)合航空公司的問(wèn)題則要歸咎于一個(gè)路由器的運行失敗,但這有引出了一個(gè)高度冗余的系統如何會(huì )有一個(gè)單點(diǎn)故障的問(wèn)題。

      當然,通信問(wèn)題并不是美國航空公司所獨有。云計算巨頭亞馬遜網(wǎng)絡(luò )服務(wù)(AWS)在當一款路由器的軟件被錯誤的更新時(shí),也失去了幾個(gè)區。這樣的故障失敗往往是由糟糕的操作程序,缺乏制衡的配置或糟糕的安裝所造成的。

      像AWS一樣,在混亂的紐約證券交易所發(fā)生停機中斷,起因于一個(gè)糟糕的軟件更新——在這種情況下,“匹配引擎”將連接買(mǎi)賣(mài)交易指令。

      盡管硬件或軟件方面的原因已倍受指責,但所有這些問(wèn)題的真正的罪魁禍首是人為錯誤。在高度進(jìn)化的系統中,故障是可以預料的,管理員必須進(jìn)行相應的改變,以處理不同的平臺和應用程序的方法。糟糕的網(wǎng)絡(luò )拓撲,未經(jīng)測試的更新,更新被誤用都是可以避免的錯誤。現在的問(wèn)題是如何避免它們,同時(shí)也不會(huì )產(chǎn)生其他惡果。

      自動(dòng)化操作是解決更新問(wèn)題的答案。任何使用Windows的人都熟悉其升級方法。有時(shí)它是在后臺自動(dòng)進(jìn)行的,有時(shí)也需要用戶(hù)回答一些問(wèn)題,但大部分的工作和任何重新配置的新代碼都是由軟件處理的。

      另一方面,Linux在最好的傳統命令行界面,通常需要系統管理員輸入驚人的速率來(lái)執行更新。其腳本被認為是最先進(jìn)的。不過(guò),腳本總是需要調整才能正常工作。

      高水平的人工交互系統本身故障頻發(fā),AWS和紐約證券交易所的事件是典型的結果。聯(lián)合航空公司則有著(zhù)不同的問(wèn)題。顯然是一個(gè)單一的故障點(diǎn)造成的。防止這種故障不是研究火箭般的高精尖科學(xué)。僅僅只需對路由結構進(jìn)行人工審查應該就能夠確定一個(gè)路由器可以使系統癱瘓的問(wèn)題的癥所在。坦白說(shuō),當應用程序套件的拓撲結構和底層平臺總是在不斷變化時(shí),人工檢查是不容易的。

      一些軟件將能夠在系統中檢測問(wèn)題點(diǎn)時(shí)發(fā)揮其價(jià)值。企業(yè)傾向于通過(guò)連續性軟件解決配置問(wèn)題。大數據分析的方法可能會(huì )增加方法的復雜性。

      即便如此,糟糕的應用程序設計,特別是彈性較小的傳統遺留系統仍然是一個(gè)問(wèn)題,將繼續困擾我們。解決這一類(lèi)問(wèn)題的答案是“沙箱測試”和“更嚴格的測試”。

      無(wú)停機中斷故障的數據中心究竟是否能夠存在?答案是,我們距離實(shí)現這一理想還很遠,但我們可以做得更好。

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 车致| 邓州市| 盐城市| 丰顺县| 孟村| 武乡县| 绵阳市| 克拉玛依市| 新闻| 古交市| 德阳市| 六枝特区| 惠来县| 桐庐县| 四子王旗| 靖远县| 焉耆| 贞丰县| 慈利县| 通河县| 景泰县| 清流县| 布尔津县| 广州市| 凤台县| 四子王旗| 扶风县| 葫芦岛市| 新竹市| 四平市| 平和县| 大悟县| 南江县| 兴安盟| 开化县| 益阳市| 龙岩市| 桓台县| 方城县| 苍山县| 资溪县| http://444 http://444 http://444 http://444 http://444 http://444