案例背景
某大學(xué)校園網(wǎng)內部的數據中心最近一段時(shí)間通過(guò)流量監控設備發(fā)現流量比以前高很多,校內及校外均有人反映訪(fǎng)問(wèn)數據中心服務(wù)器的速度比較慢。根據用戶(hù)介紹前段時(shí)間在數據中心與校園網(wǎng)核心交換機之間部署了一臺流量分流設備,用于IDS及其他安全設備采集網(wǎng)絡(luò )數據。用戶(hù)懷疑是該設備問(wèn)題導致的異常,但并沒(méi)有有力的證據。
根據故障現象我們在用戶(hù)網(wǎng)絡(luò )中部署了科來(lái)回溯分析系統,分別鏡像流量異常的兩端(校園網(wǎng)核心交換、數據中心匯聚交換機)的流量進(jìn)行數據包級分析。
案例分析
1. 校園網(wǎng)核心交換采集數據分析
在校園網(wǎng)核心交換處通過(guò)科來(lái)回溯分析系統采集的數據包,我們通過(guò)TCP會(huì )話(huà)視圖可以看到從數據中心發(fā)過(guò)來(lái)的數據包的TCP序列號兩兩重復,而且間隔時(shí)間非常短,從核心交換發(fā)往數據中心的數據包則沒(méi)有出現這種情況。這一現象可以排除TCP重傳的可能性,因為超時(shí)重傳需要等待兩倍RTT延時(shí),發(fā)送方不可能如此短的時(shí)間間隔重傳數據包。
通過(guò)數據包IP Identification字段的比對,我們可以看到數據中心發(fā)到核心交換的數據包的IP Identification字段的值會(huì )重復兩次,如下圖所示。
IP Identification字段是鑒別IP報文是否重復的重要指標,發(fā)送方短時(shí)間不會(huì )構造兩個(gè)IP Identification字段相同的報文,因此我們可以斷定這些報文是在到達校園網(wǎng)核心交換這段鏈路上被中間設備額外復制了一份。
初步懷疑有以下幾種可能:
- 數據中心內部網(wǎng)絡(luò )設備問(wèn)題;
- 位于數據中心與核心交換中間的流量分流設備在復制流量時(shí)發(fā)生異常;
- 校園網(wǎng)核心交換鏡像功能異常;
由于數據中心原本流量就比較高,數據包被重復發(fā)送導致了鏈路流量過(guò)高出現了擁塞。要準確定位原因需要在數據中心匯聚交換機采集出口鏈路的流量才能夠進(jìn)一步判斷問(wèn)題點(diǎn)。
2. 數據中心出口采集數據分析
在數據中心出口采集到的數據包,其現象與核心交換處的現象正好相反:從核心發(fā)過(guò)來(lái)的數據包會(huì )重復兩次,發(fā)往核心的數據包沒(méi)有重復。
由于在數據中心并未看到數據中心發(fā)出的報文有重復現象,而在核心交換也未看到核心發(fā)往數據中心的報文重復,我們可以排除數據中心內部網(wǎng)絡(luò )設備和核心交換機鏡像異常的可能性。
案例分析結論
通過(guò)數據比對,我們可以看到單一的數據包在經(jīng)過(guò)流量分流設備到達另外一端后就會(huì )出現重復一次的現象,可以判斷很可能是流量分流設備導致的問(wèn)題。
用戶(hù)將這一信息告知流量分流設備廠(chǎng)商后,廠(chǎng)商技術(shù)人員經(jīng)過(guò)仔細核查確認配置存在錯誤,進(jìn)行了調整后網(wǎng)絡(luò )回復正常。