• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>

    數據中心發(fā)生故障后如何進(jìn)行故障分析

    2014-08-01 09:58:34   作者:   來(lái)源:比特網(wǎng)   評論:0  點(diǎn)擊:


      7月24日,阿爾及利亞航空公司的一架客機從瓦加杜古飛往阿爾及利亞首都阿爾及爾中墜毀,在此之前的7月23日,臺灣復興航空一架客機在澎湖馬公機場(chǎng)墜毀……在飛機墜毀后的第一時(shí)間,就是尋找飛機上的黑匣子,因為黑匣子記錄著(zhù)飛機墜毀前的飛機各種運行參數和飛行員的談話(huà)等錄音記錄,這些是分析飛機墜毀原因的最重要數據來(lái)源。

      那么對于數據中心也一樣,如今的數據中心已經(jīng)承載著(zhù)太多的重要業(yè)務(wù),人們的生活早已經(jīng)離不開(kāi)數據中心,它已經(jīng)成為了人們生活的一部分,一旦數據中心發(fā)生故障將給人們帶來(lái)很多不便和經(jīng)濟損失。因為每當數據中心發(fā)生故障后,既然可以通過(guò)一些歷史記錄去還原故障的發(fā)生原貌,對數據中心的未來(lái)發(fā)展建設都會(huì )很有借鑒意義。

      當然,絕大多數的數據中心都是運行在固定的建筑當中,不過(guò)也有一些可以移動(dòng)的數據中心,這些移動(dòng)的數據中心在工作時(shí)也基本是在固定的位置,這就和飛機有最大的不同。飛機發(fā)生墜毀一切設備都無(wú)法再繼續工作,現場(chǎng)也會(huì )被破壞,而數據中心是在固定的位置,故障現場(chǎng)依然可以被很好地保留著(zhù),這就為故障分析提供了很好的參考依據。從以往數據中心發(fā)生的故障來(lái)看,主要有三類(lèi):自然災害;人為故障;設備故障,這三個(gè)方面。90%以上的故障都來(lái)自于這三個(gè)方面。

      對于地震、火災、雷擊等天然災害,從故障現場(chǎng)的受損情況就可以分析出來(lái)。比如雷擊,會(huì )產(chǎn)生強大的沖擊電流,打到設備上,就會(huì )引起設備器件短路,產(chǎn)生瞬間的高壓,使電路急劇生溫,輕微的可引起設備短路故障,嚴重的還能引起火災。對于這些自然災害,數據中心也有很多的技術(shù)手段可以最大程度上避免災害的發(fā)生,針對每一種自然災害數據中心都需要加以重視,才能躲避開(kāi)這些自然災害。比如增加機柜和機房地面的固定螺絲,安裝避雷針,增加放火報警系統和防火器材。當出現這些自然災害時(shí),減少對數據中心的沖擊。

      人為故障占到了數據中心的故障中的70%,其中也可以分為有意的和無(wú)意的。有意的是指明知道一些操作會(huì )造成數據中心故障,仍執意去做的,這些人往往希望通過(guò)造成數據中心運行癱瘓,而達到不可告人的目的。常見(jiàn)的有黑客、情報人員、商業(yè)機密小偷等等,他們攻擊的對象往往是數據中心里的數據,通過(guò)造成數據中心故障來(lái)達到竊取或損壞數據的目的。無(wú)意的是指本意并不想破壞數據中心,但是由于自己的技術(shù)積累經(jīng)驗不夠或者疏忽,自己的操作引發(fā)了數據中心故障,這種故障占到了人為故障的80%以上。數據中心是一個(gè)復雜龐大的系統,不可能一個(gè)人面面俱到都精通,當接觸到自己不熟悉或不了解的地方,操作往往引發(fā)意想不到的結果,因此加強對人的管理尤為重要。在對數據中心做任何調整時(shí),都要從全局考慮,集中最優(yōu)秀的技術(shù)人員,將人為操作風(fēng)險降低。這類(lèi)事故往往也很容易留下證據記錄,給事故分析帶來(lái)方便。幾乎所有的數據中心都有門(mén)禁系統、視頻監控系統,任何人的出入都有記錄,很容易查到。有不少的數據中心提供遠程的訪(fǎng)問(wèn),那么所有的訪(fǎng)問(wèn)操作在數據中心后臺數據中心都有記錄,訪(fǎng)問(wèn)者對數據中心業(yè)務(wù)調整、修改配置、甚至重起設備等任何操作都會(huì )記錄在案,只要數據中心不是全面的毀滅,這些記錄都會(huì )在后臺的數據庫中查到,通過(guò)記錄的時(shí)間和訪(fǎng)問(wèn)的人就可以查明人為事故的原因。

      設備運行故障也是數據中心故障的一類(lèi),大型的數據中心擁有數千臺設備很普遍,這些電子設備難免運行中出現故障。一旦出現故障,就需要對設備進(jìn)行分析,很多現場(chǎng)操作人員并不具備分析問(wèn)題的能力,為了恢復業(yè)務(wù),只能重起設備,或者將業(yè)務(wù)切割到別的備份設備上。當故障設備上沒(méi)有業(yè)務(wù)或者已經(jīng)重起了,其上很多時(shí)時(shí)記錄都會(huì )沖掉,這樣給故障分析帶來(lái)難度。很多時(shí)候故障的表現也并非集中在某一臺設備上,心急的操作人員可能將所有設備全部重啟或將業(yè)務(wù)全部割離,如果設備能提供詳細的歷史記錄,那么對于故障分析非常有幫助。數據中心不怕出故障,怕的是出了故障后找不到原因,這相當于給數據中心埋了一個(gè)定時(shí)炸彈。其實(shí)在很多高端設備上已經(jīng)增加了一些可以記錄歷史信息的模塊,比如采用NVRAM、EEPROM等非憶失性器件時(shí)時(shí)記錄設備運行的各種參數,當設備發(fā)生故障后,哪怕是設備發(fā)生了斷電,這些器件依然可以正常運行,記錄下來(lái)設備運行的各種參數,這些數據往往是故障后分析參考的最重要數據來(lái)源。當數據中心出現故障后,有的設備可以提供故障時(shí)設備運行的各種數據參數,非常具有說(shuō)服力,有時(shí)也是證明自己設備沒(méi)有問(wèn)題的重要信息,而一旦在故障后,一些設備沒(méi)有可分析的數據記錄,根本分不清是不是自己的問(wèn)題,這樣的設備很快就會(huì )被數據中心所棄用。如果通過(guò)數據分析是自己設備的問(wèn)題,那么設備商依然可以根據這些數據去優(yōu)化設備設計,從而避免這類(lèi)故障的再次發(fā)生,讓設備運行更加穩定。

      數據中心也有各種各樣的監控手段和歷史信息記錄,這些技術(shù)為數據中心的穩定運行提供了保障,也是不斷推動(dòng)數據中心完善的重要舉措。如同飛機上的黑匣子,數據中心也有自己的一套故障定位信息獲取方案,這些信息可以在一定程度上有效還原故障時(shí)數據中心的完貌,通過(guò)對這些數據分析,不僅可以找到故障原因,還可以根據這些故障對數據中心進(jìn)行優(yōu)化,避免發(fā)生二次故障。

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 万安县| 石首市| 大新县| 双桥区| 锦屏县| 高尔夫| 新兴县| 左贡县| 寻甸| 介休市| 韶山市| 彭阳县| 阜城县| 宁晋县| 历史| 沈阳市| 乌什县| 临桂县| 桦南县| 昆明市| 浮梁县| 隆德县| 宜兴市| 禄劝| 余江县| 重庆市| 左权县| 灌云县| 绍兴县| 天台县| 大余县| 铜山县| 青浦区| 车险| 湟中县| 罗城| 收藏| 从江县| 济阳县| 德安县| 石林| http://444 http://444 http://444 http://444 http://444 http://444