5月27日下午5點(diǎn),擁有將近3億活躍用戶(hù)的支付寶出現了大面積訪(fǎng)問(wèn)故障,全國多省市支付寶用戶(hù)出現手機和電腦支付寶無(wú)法登陸、余額錯誤等問(wèn)題。對于導致此次事件的原因,螞蟻金服方面的解釋并未獲得金融和互聯(lián)網(wǎng)界的廣泛認同。
在螞蟻金服發(fā)的官方回應中稱(chēng),出現這一問(wèn)題的原因在于市政施工導致杭州市某地光纜被挖斷,影響了支付寶一個(gè)主要機房的正常運轉。當天晚上19時(shí)左右,即在事故發(fā)生大約兩個(gè)多小時(shí)以后,支付寶服務(wù)才恢復正常。
螞蟻金服稱(chēng),無(wú)法精確統計在故障時(shí)間段內使用支付寶的具體用戶(hù)數量。
擁有超過(guò)4萬(wàn)億年交易總額的支付寶是中國第一大第三方交易平臺,約占中國整體社會(huì )消費金額的六分之一。故障發(fā)生后,用戶(hù)普遍擔心賬戶(hù)資金安全問(wèn)題,亦有用戶(hù)反應出現賬戶(hù)余額不同步的現象。
螞蟻金服對此回應,支付寶有完善的技術(shù)和措施保護用戶(hù)的資金安全,支付寶中的任何一個(gè)交易,同時(shí)都會(huì )有多份記錄,數據可靠性極高。如果有用戶(hù)出現交易不同步的情況,后續都會(huì )得到妥善解決。
這份螞蟻金服的官方回應還指出,支付寶異地多活的系統架構在此次意外中發(fā)揮了巨大作用:一方面,沒(méi)有因光纜被挖斷而影響全部用戶(hù);另一方面,緊急將故障機房的流量切換至了其他機房。在當晚7點(diǎn)支付寶服務(wù)恢復時(shí),被挖斷的光纜還沒(méi)有修復。
螞蟻金服一位高管表示,大流量網(wǎng)站實(shí)時(shí)切換涉及資金時(shí)有難度,需要安全地將用戶(hù)的數據,尤其是資金數據也切換到其它機房,所以切換操作需要花費較多的時(shí)間。“技術(shù)上可以做到更快恢復,之所以較慢是為了確保不丟數據。”
螞蟻金服對于這次事故的內部總結是,數據校驗較多,怕丟數據,所以花了較多時(shí)間。內部認為這是一次安全但不夠漂亮的災備實(shí)戰,就好比跳水,起跳不錯,空中動(dòng)作也還行,但入水壓水花不夠好。
據了解,支付寶采用異地雙活的系統架構,的確有多個(gè)機房。正因為如此,本次支付寶杭州機房網(wǎng)絡(luò )中斷,只影響了一個(gè)機房,其它機房的業(yè)務(wù)不受影響。
但這依然受到外界質(zhì)疑。質(zhì)疑焦點(diǎn)有二:一是恢復時(shí)間竟然長(cháng)達兩個(gè)小時(shí);二是究竟是出于資金安全考慮而主動(dòng)放緩速度還是支付寶應急預案出現漏洞?
一位國有大型銀行內部人士表示,如果在銀行的支付系統發(fā)生大面積癱瘓超過(guò)2個(gè)小時(shí),已經(jīng)屬于重大安全事故,很有可能要向國務(wù)院匯報備案。
他強調,傳統金融機構發(fā)生這樣波及全國范圍的安全問(wèn)題幾率微乎其微,原因在于銀行涉及用戶(hù)資金的重要系統災備方案十分完備,一般是“兩地三中心”云備份方案,保證“同城災備結合異地災備”,目的在于防止重大災難或戰爭等極端情況。
上述國有大型銀行內部人士認為,正因為此,如果銀行系統出現支付寶因光纜被挖斷而導致一個(gè)數據中心停擺的情況,用戶(hù)流量和系統會(huì )向同城或異地其他數據中心切換。“就算不會(huì )是即時(shí)切換,也不會(huì )花費太長(cháng)時(shí)間,同城可能會(huì )更快,就是用戶(hù)根本感受不到延遲。”
這一說(shuō)法得到多位電信技術(shù)人士的支持。中國電信的一位技術(shù)高層人士分析,服務(wù)故障切換機制應該是自動(dòng)的,根據一定的事先設置的策略,無(wú)需人為干預,人工可以在服務(wù)切換后,再重新定義流量疏導方式。
該人士稱(chēng),支付寶多中心制的網(wǎng)絡(luò )架構設計,不同于普通用戶(hù)接入光纜寬帶服務(wù),不可能只是用一個(gè)區域性的小機房,一根光纜被挖斷了就斷服務(wù)了。支付寶機房服務(wù)的路由應該非常多,不可能只接一家運營(yíng)商,即便只是一家,肯定也是多路由接入。“數據路由就像供電,來(lái)自不同的變壓器和能原地。”
一位曾在湯森路透工作的阿里巴巴程序員表示,湯森路透號稱(chēng)世界最大金融網(wǎng)絡(luò ),處理全球實(shí)時(shí)金融數據,要求不能宕機,哪怕自然災害或戰爭。他們機房這樣建的:兩條不同電信公司的光纜和不同電力公司的電纜分別從機房的兩個(gè)方向進(jìn)入,同一個(gè)機房的所有系統實(shí)時(shí)雙備份,并建設兩個(gè)不同城市(巴黎、日內瓦)機房同時(shí)實(shí)時(shí)處理相同的數據。
某大型國企網(wǎng)絡(luò )運維人員稱(chēng),從技術(shù)角度看,支付寶此次事故可能是內部應用模塊出了問(wèn)題,未經(jīng)嚴格驗證的應用被統一升級后,被意外觸發(fā)到未知狀態(tài),會(huì )導致此類(lèi)問(wèn)題。
上述運維人員還表示,經(jīng)他觀(guān)察,支付寶DBA(數據管理人員)緊急恢復了RPO=10days的完整數據(RPO,Recovery Point Objective,復原點(diǎn)目標,是指當服務(wù)恢復后,恢復得來(lái)的數據所對應時(shí)間點(diǎn),理想的狀態(tài)是RPO=0,故障出現立即恢復,但需要極大投入),并不停地進(jìn)行分段增量數據恢復,歷時(shí)約2小時(shí)余,這就是應用模塊的問(wèn)題。
上述中國電信技術(shù)人士則分析認為,出現這種問(wèn)題的可能性是,支付寶多個(gè)數據中心之間的自動(dòng)流量切換機制出現問(wèn)題,只能人工介入。還可能是其他三種原因:一是很有可能是支付寶遭到了攻擊;二是支付寶的路由配置癱瘓了;三是支付寶的云服務(wù)器癱瘓了,亞馬遜也出現過(guò)這個(gè)問(wèn)題。號稱(chēng)最先進(jìn)最安全的阿里云系統對自家業(yè)務(wù)并沒(méi)支撐好。
就以上相關(guān)問(wèn)題,螞蟻金服回應稱(chēng),具體的技術(shù)分析正在加緊進(jìn)行,但得出結論判斷還需要一段時(shí)間。
微妙的是,在螞蟻金服更早的一份媒體回應中稱(chēng),之所以花費較長(cháng)時(shí)間,是在流量向支付寶位于深圳的數據中心遷移的時(shí)候,切換系統也受到了光纖斷裂的影響,所以切換上花費了一些時(shí)間。這與“技術(shù)上他們可以做到更快恢復,之所以較慢是為了確保不丟數據”這一說(shuō)法并不一致。
另有行業(yè)人士評價(jià),此次事件反應出支付寶在故障倒換能力和應急反應速度上還有待提高,反應出互聯(lián)網(wǎng)公司在應急處理能力上的普遍短板,互聯(lián)金融系統的運行穩定性并不如此前所宣稱(chēng)那樣完善。在支付寶發(fā)生大面積癱瘓事故之后,互聯(lián)網(wǎng)企業(yè)的運維人員建立微信群對此展開(kāi)了討論。
隨著(zhù)云計算和大數據的逐步普及,以及人們在互聯(lián)網(wǎng)應用越來(lái)越重的資產(chǎn)托付,IT技術(shù)領(lǐng)域普遍呼吁互聯(lián)網(wǎng)公司改變“盡力而為”的服務(wù)承諾和網(wǎng)絡(luò )架構,向傳統電信、IT領(lǐng)域高達99.999%的“5個(gè)9”安全級別靠攏。
螞蟻金服表示,支付寶將不斷提升災備切換速度,希望未來(lái)這樣的切換能讓用戶(hù)無(wú)感知或者最小化感知。
對于此次事故帶來(lái)的具體損失額度,螞蟻金服表示,暫時(shí)無(wú)法統計。