近年,國內云服務(wù)商迅速發(fā)展壯大,自建機房趕不上發(fā)展速度,云服務(wù)商普遍通過(guò)租用IDC的方式進(jìn)行服務(wù)擴容。IDC供應商眾多,而災備能力卻參差不齊,電力中斷導致的故障最近更時(shí)有發(fā)生。
租用機房的做法,在國內云服務(wù)商提供海外云服務(wù)時(shí)更為常見(jiàn),云服務(wù)商如何選擇海外數據中心,通過(guò)什么手段保障聯(lián)合運營(yíng)效果,災備能力是否足夠,成為用戶(hù)最關(guān)心的話(huà)題。
為此,我們對騰訊云專(zhuān)家進(jìn)行了關(guān)于海外云服務(wù)和災備能力建設的主題專(zhuān)訪(fǎng)。若遇到電力中斷等意外事故,騰訊的海外數據中心將如何處理?專(zhuān)家的解讀,相信能給用戶(hù)與云服務(wù)商提供更多借鑒。
Q:中國的云服務(wù)商在海外布局數據中心一般采取什么策略,共建、租用還是自建?
A:據我們了解,由于規模的原因,中國互聯(lián)網(wǎng)公司在海外的數據中心很少自建,大多是租用。騰訊云在香港和北美的數據中心采取的方式是租用+定制化。
Q:在租用+定制化的策略下,騰訊云對合作伙伴有著(zhù)怎樣的選擇標準?
A:近期的多起云服務(wù)商故障大多緣于IDC基礎設施設計的冗余等級較低,且可用性運營(yíng)經(jīng)驗匱乏。
騰訊自QQ業(yè)務(wù)開(kāi)始自建數據中心,擁有超過(guò)15年的IDC經(jīng)驗,擁有亞洲最大的互聯(lián)網(wǎng)數據中心,以及亞洲最大的數據中心群。在15年的發(fā)展過(guò)程中,騰訊不斷組建及壯大自己的IDC專(zhuān)家團隊,積累及沉淀IDC技術(shù),構建運營(yíng)及安全保障體系,技術(shù)實(shí)力在國內數據中心行業(yè)處于領(lǐng)先地位。
在海外,騰訊云采用的是租用+定制化方式,因此在選擇合作供應商有嚴格的篩選要求,且每次機房選址都會(huì )投入技術(shù)專(zhuān)家參與數據中心選址。在香港,與騰訊云合作的供應商是全球數一數二的數據中心提供商,在全球擁有超過(guò)15年的建設和運營(yíng)經(jīng)驗,有體系化嚴謹的運營(yíng)安全及保障體系,機房有優(yōu)異的可用性記錄。
事實(shí)上,騰訊為了支撐自身海外業(yè)務(wù)的發(fā)展(如QQ、微信等),每個(gè)地區其實(shí)有多個(gè)IDC,我們根據實(shí)際運行水平,其中再挑選出其中最好的數據中心,開(kāi)放出來(lái)做云服務(wù)。
Q:騰訊云如何保證聯(lián)合運營(yíng)的效率,保障業(yè)務(wù)穩定?
A:騰訊自身互聯(lián)網(wǎng)業(yè)務(wù)眾多,發(fā)展迅猛,服務(wù)器規模從10W到20W僅僅用了1年時(shí)間,給業(yè)務(wù)穩定運營(yíng)帶來(lái)了前所未有的壓力。騰訊不單扛住了海量業(yè)務(wù)的挑戰,更在這一過(guò)程中積累了豐富的運營(yíng)商IDC及自建IDC運維經(jīng)驗。
騰訊IDC運營(yíng)歷史之悠久,自建和合作機房之多,均領(lǐng)先業(yè)界。我們將海內外的百家優(yōu)勢和經(jīng)驗匯聚在一起,通過(guò)總結、提煉和分享創(chuàng )造共同財富,不讓同一問(wèn)題在其他機房再出現。在安全可靠性運營(yíng)方面,我們積累了非常豐富的經(jīng)驗。
著(zhù)眼于安全可靠性運營(yíng)的核心問(wèn)題,我們早些年就開(kāi)始與各大運營(yíng)商建立了一系列卓有成效的聯(lián)合運營(yíng)機制。除了把騰訊自身積累的經(jīng)驗分享給IDC服務(wù)商之外,還提升到雙方高效溝通、規范流程體系、數據量化、聯(lián)合巡檢、聯(lián)合排查、聯(lián)合整治、聯(lián)合優(yōu)化、技術(shù)平臺共享的高度。一方面保障了騰訊的業(yè)務(wù),同時(shí)也促進(jìn)各大運營(yíng)商不斷進(jìn)步,創(chuàng )造多方共贏(yíng)。這的聯(lián)合運營(yíng)方式,也是騰訊在業(yè)界的首創(chuàng )。
隨著(zhù)聯(lián)合運營(yíng)的廣泛落地,騰訊最近幾年在基礎設施層面的重大故障幾乎為零,這也大大提升了行業(yè)內眾多運營(yíng)商的IDC運營(yíng)水平。
Q:近日,有云服務(wù)商香港數據中心因斷電,造成服務(wù)中斷十多個(gè)小時(shí)。數據中心是否應當有備用發(fā)電設備,一旦斷電作自動(dòng)切換?騰訊云采取哪些措施來(lái)應對類(lèi)似突發(fā)狀況?
A:就斷電故障而言,對災備能力有充足投入的IDC運營(yíng)商是可以實(shí)現斷電自動(dòng)切換的,云服務(wù)商在選擇合作伙伴的時(shí)候需要嚴格把關(guān)。
就供電系統而言,目前業(yè)界流行的是相對低成本的N+1設計,以及相對高成本的2N設計。整體而言,2N系統的可靠性比N+1系統要更高。
騰訊云香港數據中心的電力系統從市電進(jìn)線(xiàn)、柴發(fā)、UPS系統,一直到機柜PDU,都是完全獨立2N系統,中間不交叉,一旦其中一路系統的某個(gè)部件出現問(wèn)題,都可以有另外一路進(jìn)行全負載備份,可靠性更高。
Q:除了近期的斷電事故,包括之前還有云服務(wù)商因機房遭受雷擊而故障的事件,數據中心的災備還需要考慮什么情況,騰訊云是怎么做的?
A:機房遭受雷擊,說(shuō)明數據中心防雷設施可能存在一系列的問(wèn)題。
騰訊建設數據中心,在建設階段,會(huì )從數據中心全生命周期,設計、建設、驗收進(jìn)行管理,且不同領(lǐng)域包括電力、空調、安全、網(wǎng)絡(luò ),都會(huì )有專(zhuān)業(yè)人員參與,而且這些專(zhuān)業(yè)人員都是從騰訊所有IDC身經(jīng)百戰過(guò)來(lái)。
運營(yíng)階段,我們通過(guò)上述提及的聯(lián)合運營(yíng)的機制,投入騰訊的專(zhuān)家人員,與運營(yíng)商一起對相關(guān)IDC進(jìn)行聯(lián)合巡檢、聯(lián)合排查、確保在事故前發(fā)現問(wèn)題,提早整改,規避隱患。對于可能發(fā)生的風(fēng)險,騰訊是零容忍的,隱患只要在某一機房發(fā)現,就會(huì )進(jìn)行全國排查。過(guò)去幾年,我們曾在多個(gè)IDC發(fā)現過(guò)隱患,經(jīng)過(guò)聯(lián)合整改,最后規避了風(fēng)險。
Q:在海外數據中心方面,異地災備是必須的么?萬(wàn)一出現斷電等問(wèn)題,騰訊云將如何保證用戶(hù)的業(yè)務(wù)安全?
A:以香港數據中心為例,騰訊云除了嚴格選擇合作伙伴、建立緊密聯(lián)運機制之外,在供電、防雷、制冷、UPS、底層光纖等方面,都具有較高的冗余設計,后續更計劃擴展第二個(gè)可用區,為客戶(hù)提供更高級別的可用性。
(備注:可用區,即同一地域下(如廣州),電力和網(wǎng)絡(luò )互相獨立的物理區域(一般是一個(gè)物理機房),目標是能夠保證可用區間故障相互隔離(大型災害或者大型電力故障除外),不出現故障擴散,使得用戶(hù)的業(yè)務(wù)持續在線(xiàn)服務(wù)。可用區類(lèi)似同城容災,用戶(hù)可以選擇在不同的可用區部署來(lái)達到跨機房的高可用。)
Q:中國很多云服務(wù)商,包括騰訊云在海外提供服務(wù)都首選香港,為什么?
A:在海外選點(diǎn)部署IDC,網(wǎng)絡(luò )覆蓋是第一位的,在整個(gè)亞太區,香港能實(shí)現良好的網(wǎng)絡(luò )覆蓋。
香港大區目前的主要覆蓋用戶(hù)群體是東亞和東南亞區域,從亞太地區的海底光纜交匯點(diǎn)及互聯(lián)網(wǎng)的POP點(diǎn)看,香港的優(yōu)勢非常明顯,覆蓋東南亞地區的網(wǎng)絡(luò )質(zhì)量也比較平均;對于機房底層的設施看,不論選點(diǎn)在哪里,都是需要提供較高的可用性給客戶(hù),騰訊云在香港提供了較高的服務(wù)能力。
Q:云時(shí)代,云服務(wù)商和IDC提供商應該是一個(gè)怎樣的關(guān)系,騰訊對此是否有創(chuàng )新的舉措?
A:即便是在國內,云服務(wù)商的數據中心也很少是完全自建的,更多是和運營(yíng)商租用或者合建。就騰訊云而言,IDC分布在多個(gè)運營(yíng)商,各個(gè)IDC的基礎設施情況不同,運營(yíng)水平有高有低。運營(yíng)商的運營(yíng)水平,將直接影響云服務(wù)商,最后影響到用戶(hù)。因此云服務(wù)商與運營(yíng)商的依賴(lài)關(guān)系如同魚(yú)和水的關(guān)系。
我們的CEOPony說(shuō)過(guò)騰訊把半條命都交給了合作伙伴,這句話(huà)用來(lái)形容騰訊與IDC合作伙伴的關(guān)系,也非常適用。剛才提到,騰訊在業(yè)界首創(chuàng )聯(lián)合運營(yíng)機制,不但確保了騰訊業(yè)務(wù)的安全可靠,同時(shí)也提升了運營(yíng)商的運營(yíng)能力。
我們認為,像騰訊、阿里這樣,擁有海量數據中心的互聯(lián)網(wǎng)企業(yè),在某種意義上被賦予了一個(gè)使命,通過(guò)“云”這個(gè)特殊的媒介,與下游產(chǎn)業(yè)每一家IDC相互分享經(jīng)驗,完善運營(yíng)體系,落實(shí)最佳實(shí)踐,從而實(shí)現多方共贏(yíng),進(jìn)而促進(jìn)整個(gè)產(chǎn)業(yè)的進(jìn)步。實(shí)際上,也只有像騰訊、阿里這樣擁有海量規模的互聯(lián)網(wǎng)公司才能承擔這樣的使命。
我們非常高興看到許多運營(yíng)商也持開(kāi)放的態(tài)度,參與到騰訊IDC的聯(lián)合運營(yíng)中,我們也有理由相信,在整個(gè)云產(chǎn)業(yè)及數據中心行業(yè)的共同努力,我們?yōu)橛脩?hù)提供的云服務(wù),一定會(huì )不斷提升。