當網(wǎng)絡(luò )問(wèn)題并不復雜,并且當大家都來(lái)自同一個(gè)組織的時(shí)候,專(zhuān)家團隊方法能夠有效地對事故作出響應。但近年來(lái),隨著(zhù)基礎架構云端化,相關(guān)利益主體分布在不同的部門(mén)、公司和地理區域,針對網(wǎng)絡(luò )事故和業(yè)務(wù)應用性能問(wèn)題的根本原因分析(RCA)變得越發(fā)困難。
為滿(mǎn)足服務(wù)水平協(xié)議(SLA)要求并防止客戶(hù)流失,快速查明根本原因已成為許多企業(yè)的首要任務(wù)。但是,據《Emulex可視性調查》表明,79%的企業(yè)曾經(jīng)將事故發(fā)生的原因錯誤地歸咎于某個(gè)IT部門(mén),這不僅增添了混亂程度,還推遲了解決問(wèn)題的時(shí)間。
針對以上問(wèn)題,本文將介紹一個(gè)由數據包分析驅動(dòng)的故障域隔離(FDI)方法,幫助企業(yè)進(jìn)行故障檢修并解決網(wǎng)絡(luò )和應用性能問(wèn)題。
外包成為主流
即使整個(gè)基礎架構由一家企業(yè)所有,要充分了解整個(gè)基礎架構的實(shí)際狀態(tài)也會(huì )非常困難。更何況,當外包業(yè)務(wù)迅速擴張時(shí),端到端業(yè)務(wù)應用就會(huì )逐漸出現許多盲點(diǎn)。如果整個(gè)技術(shù)層都被外包出去,就會(huì )出現一個(gè)巨大的盲點(diǎn),導致您無(wú)法在該技術(shù)域內進(jìn)行RCA。為了順應技術(shù)外包的趨勢,企業(yè)必須清楚地區別事故響應工作流程中FDI階段與RCA階段的目的和要求。
什么是FDI?
FDI的理念很簡(jiǎn)單,任何看過(guò)病的人都不難理解,它跟醫療保健領(lǐng)域的“事故調查”流程在本質(zhì)上相似。首先,一名全科醫生會(huì )進(jìn)行初步評估、安排診斷測試并評估結果。然后,患者將接受專(zhuān)科醫生的檢查,而且只有在證據充分、可以確定病情時(shí)才會(huì )進(jìn)行其他診斷和治療。診斷過(guò)程以事實(shí)而不是以猜測作為依據。
部署FDI的企業(yè)希望最大限度地減少參與每次事故調查的技術(shù)專(zhuān)家的人數和類(lèi)型,這就是FDI需要在RCA之前進(jìn)行的原因。這樣做的目的是為了在開(kāi)始深入分析根本原因之前找到一個(gè)可疑的技術(shù)層。為什么要按技術(shù)進(jìn)行隔離呢?一是因為IT部門(mén)和外包業(yè)務(wù)通常是按技術(shù)劃分的,二是因為這樣有助于快速減少參與人員的數量。由于只會(huì )牽涉到一個(gè)故障域,技術(shù)隔離可以避免整個(gè)部門(mén)及外部企業(yè)由于接受調查而導致業(yè)務(wù)停頓。這就好比您不會(huì )讓一名神經(jīng)外科醫生來(lái)檢查腳趾骨折一樣。
FDI的一個(gè)主要目的是防止調查過(guò)程中“相互推諉”的現象。要使FDI更為有效,必須提供確鑿的證據,證實(shí)某個(gè)“可疑”子系統或技術(shù)層是導致問(wèn)題的根本原因。同時(shí),還需要確認任何其他子系統或技術(shù)層不可能是問(wèn)題的根源所在。當故障域位于外包技術(shù)中時(shí),這一點(diǎn)尤為重要。
在將問(wèn)題移交給負責的團隊或服務(wù)提供商處理的時(shí)候,有效的FDI還有助于提供與特定技術(shù)相關(guān)、可付諸行動(dòng)的數據,這將為技術(shù)團隊提供相關(guān)情景、癥狀和信息,以便他們立即針對其所負責的系統進(jìn)行深入的根本原因分析。
圖1:事故響應流程
只需要一組事實(shí)
為保證其效率及有效性,FDI需要根據在技術(shù)層之間交換的實(shí)際數據包進(jìn)行分析。數據包不會(huì )“撒謊”,它們也不會(huì )掩蓋平均值或統計數據中的關(guān)鍵細節。以基本數據包作為證據可以確保FDI流程找到對于事故具有不可推卸責任的故障技術(shù)層。
“首要FDI”指的是將事故交予特定技術(shù)團隊或外包服務(wù)提供商。它的目標相對簡(jiǎn)單,即在少數部門(mén)、團隊以及外包服務(wù)商中分配事故,因而是一種極為經(jīng)濟的實(shí)施方法。在實(shí)際操作中,它涉及的技術(shù)層、網(wǎng)絡(luò )中的分路點(diǎn)以及在每個(gè)技術(shù)層之間進(jìn)行監控的網(wǎng)絡(luò )記錄器均相對較少。
什么原因導致了延遲?
當人們認真地進(jìn)行RCA并且有自信確定問(wèn)題所在的時(shí)候,人們就可以降低成本并縮短解決問(wèn)題的時(shí)間。當負責處理問(wèn)題的人員擁有正確評估原因及解決問(wèn)題的專(zhuān)業(yè)技能時(shí),RCA就能達到最佳效果。
在前文,我們提到以數據包為導向的FDI流程能夠有效加快事故調查并減少參與人員數量。此外,FDI不需要很多分路器和設備即可對主要技術(shù)層進(jìn)行隔離,從而實(shí)現其首要目標--僅指派相關(guān)的人員參與事故調查。那么,為什么很多重大事故調查仍然需要召開(kāi)專(zhuān)家小組會(huì )議呢?
問(wèn)題在于,有的人認為,僅僅依靠若干分路器和網(wǎng)絡(luò )記錄器不足以完全解決復雜的事故。您知道嗎?他們的看法是正確的。但是,這并不是事故調查流程FDI階段的目標,該階段的目標是隔離故障。通過(guò)基本數據包以及數據包分析的流程,您可以簡(jiǎn)單有效地實(shí)現這一目標。
分而治之
首要/一級FDI流程會(huì )將事故隔離到由企業(yè)內部結構和外包安排所定義的單一技術(shù)層。要達到首要FDI的最佳效果,我們需要:1) 使用網(wǎng)絡(luò )記錄工具監控和儲存技術(shù)層之間產(chǎn)生的網(wǎng)絡(luò )流量;2) 通過(guò)應用事務(wù)分析(Application Transaction Analysis)來(lái)進(jìn)行故障隔離。數據包存儲對于高效的FDI所依賴(lài)的回顧性分析(Back-in-time Analysis)至關(guān)重要。
您可能已經(jīng)猜到,FDI是一個(gè)可以分層部署的“分治”流程。您還可以在每個(gè)技術(shù)層次中進(jìn)行FDI,從而進(jìn)一步隔離問(wèn)題,直到高效完成RCA。這個(gè)過(guò)程可以稱(chēng)為“層內FDI”或“輔助FDI”。
輔助FDI工作流程尤其適用于網(wǎng)絡(luò )事故調查。同理,為達到FDI的最佳效果,我們需要監控并儲存關(guān)鍵網(wǎng)絡(luò )組件之間的實(shí)際數據包流,從而進(jìn)行有效的回顧性分析。
如果以網(wǎng)絡(luò )內FDI作為目標,則需要了解應在哪些位置部署網(wǎng)絡(luò )分路器和網(wǎng)絡(luò )記錄工具。首要FDI與網(wǎng)絡(luò )內FDI之間的主要區別在于觀(guān)察點(diǎn)的位置更多與物理位置、技術(shù)、員工專(zhuān)業(yè)技能以及外包程度和外部提供商有關(guān),與組織問(wèn)題關(guān)系不大。但是,FDI流程較為類(lèi)似:執行基于數據包的分析以提供確鑿證據,從而確定哪些技術(shù)或服務(wù)提供商存在問(wèn)題、哪些不存在問(wèn)題。
始終運行還是始終可用?
我們不希望等到發(fā)生重大事故時(shí)才開(kāi)始部署執行FDI所需的分路器和監控工具,這將與FDI的初衷背道而馳。因此,我們應部署并始終運行執行主要/一級FDI所需的分路器和網(wǎng)絡(luò )記錄工具。
但是,如何執行輔助/技術(shù)內FDI呢?如何處理遠程站點(diǎn)、地區性數據中心和非關(guān)鍵性應用呢?您不可能四處進(jìn)行分路,也無(wú)法儲存一切內容。
幸運的是,人們開(kāi)發(fā)了許多網(wǎng)絡(luò )記錄工具,以滿(mǎn)足主要技術(shù)層之間的“始終運行”記錄需求,以及通過(guò)網(wǎng)絡(luò )數據包代理連接到眾多二級分路點(diǎn)的“始終可用”記錄需求。始終可用的設備不一定能夠保證長(cháng)期的回顧可視性,但您可以在需要時(shí)快速配置這些設備,根據當前事故調查的特定可視性需求進(jìn)行監控。
如此簡(jiǎn)單?
那么,FDI真的像我們所說(shuō)的那么簡(jiǎn)單嗎?我們需要辯證地回答這個(gè)問(wèn)題。很顯然,在現代企業(yè)聯(lián)網(wǎng)業(yè)務(wù)應用基礎架構這樣復雜的動(dòng)態(tài)系統中,可能會(huì )出現各種反常、復雜甚至是匪夷所思的問(wèn)題。您始終需要對這些類(lèi)型的問(wèn)題進(jìn)行深入調查,并利用專(zhuān)家的技能和知識來(lái)加以解決。但這并不能說(shuō)明FDI與有效解決這些負載問(wèn)題無(wú)關(guān)。事實(shí)上,這些問(wèn)題使一個(gè)嚴格、可重復、由數據驅動(dòng)的FDI流程更為重要了。要解決復雜問(wèn)題,為什么不采用FDI這種久經(jīng)考驗的“分治”方法呢?
關(guān)于Emulex
Emulex為高性能網(wǎng)絡(luò )提供連接、監控和管理解決方案,為下一代軟件定義、電信公司和Web-scale數據中心交付預配置(provisioning)、端到端應用可視性、優(yōu)化和加速功能。公司的I/O連接產(chǎn)品系列被廣泛用于全球主要OEM和ODM的服務(wù)器及存儲解決方案中,可幫助企業(yè)有效管理帶寬、延遲、安全性和虛擬化。Emulex的網(wǎng)絡(luò )可視性產(chǎn)品系列可幫助全球企業(yè)監控并改進(jìn)應用和網(wǎng)絡(luò )性能管理。Emulex總部設在美國加州Costa Mesa。