4月15日,恒生電子與中國信通院聯(lián)合發(fā)布《證券行業(yè)分布式核心系統SRE運維白皮書(shū)》,招商證券、東北證券、東方證券、光大證券、山西證券等機構共同參與編寫(xiě)。白皮書(shū)指出,以主動(dòng)運維為核心的SRE運維模式,采用“運維即開(kāi)發(fā),自動(dòng)化代替人工”的思想,大大提升運維人員工作效率,達到系統故障早發(fā)現早治理的效果,從根本上彌補傳統IT運維缺陷。
在互聯(lián)網(wǎng)金融模式的變革和沖擊下,金融機構面臨著(zhù)海量客戶(hù)管理、業(yè)務(wù)場(chǎng)景快速增長(cháng)、金融服務(wù)和產(chǎn)品多樣化等挑戰。為應對不斷增加的技術(shù)創(chuàng )新需求,證券行業(yè)核心系統正逐步從傳統IT集約型架構向支持敏捷開(kāi)發(fā)、彈性擴容、智能靈活的分布式架構轉型,同時(shí)也促使券商內部的IT運維管理走向自動(dòng)化、智能化。
SRE為證券行業(yè)核心系統可用性保駕護航
SRE,是一種將IT運維相關(guān)技術(shù)與產(chǎn)品設計研發(fā)過(guò)程結合起來(lái),利用軟件工程方法來(lái)管理系統、解決問(wèn)題并實(shí)現運維任務(wù)自動(dòng)化,幫助團隊在快速迭代新版本和確保業(yè)務(wù)可靠性之間找到平衡的新型運維模式。
對于證券行業(yè)而言,SRE團隊需要保障集中交易、投資管理等核心業(yè)務(wù)系統的可靠運行。SRE人員通過(guò)深度參與系統規劃、設計、研發(fā)、上線(xiàn)、運維、優(yōu)化、架構等環(huán)節,制定SLA,并圍繞SLO推動(dòng)分布式架構系統的運維能力實(shí)現。
SRE運維模式變被動(dòng)運維為主動(dòng)運維,通過(guò)開(kāi)發(fā)控制風(fēng)險的流程,引入自動(dòng)化工具,確保業(yè)務(wù)系統在減少業(yè)務(wù)中斷、維持高效運行、降低成本投入等方面符合目標。
構建分布式核心系統SRE運維服務(wù)體系
據白皮書(shū)介紹,針對證券行業(yè)分布式核心系統,SRE運維服務(wù)體系可以從五大方面進(jìn)行建設,包括以用戶(hù)體驗為核心的服務(wù)質(zhì)量度量體系,以監控系統為基礎的觀(guān)測指標體系,以穩定可靠為保障的流程管理體系,以服務(wù)治理為目的的穩定性運營(yíng)體系和以持續改進(jìn)為標準的組織管理體系。
在支撐工具和平臺功能方面,監控平臺是SRE最重要的部分。為更好覆蓋到分布式架構系統的觀(guān)測點(diǎn),具備快速定位和排障能力,監控平臺需要滿(mǎn)足能力平臺化、監控可視化、過(guò)程自動(dòng)化、分析智能化的特性。此外,SRE還應包含事件管理、數據服務(wù)、自動(dòng)化、應用部署等關(guān)鍵運維服務(wù)平臺。
作為國內領(lǐng)先的金融科技公司,恒生電子在積極推進(jìn)核心系統分布式轉型的同時(shí),也沉淀了豐富的SRE工程實(shí)踐。經(jīng)過(guò)數年的業(yè)務(wù)錘煉,目前針對證券行業(yè)分布式核心系統,恒生電子可提供體系化SRE服務(wù),包含系統可觀(guān)測指標梳理和可視化視圖的統一設計、部署以及災備優(yōu)化、灰度變更優(yōu)化、容量度量、可用性度量、自動(dòng)化優(yōu)化等多項服務(wù),通過(guò)工程化手段,助力金融機構IT部門(mén)建設新一代分布式架構的運維文化、運維流程和運維工具。
恒生電子運維服務(wù)部負責人表示,無(wú)論從企業(yè)成本還是技術(shù)演化角度考慮,SRE這類(lèi)主動(dòng)式IT運維模式都是未來(lái)的發(fā)展方向。但在現有的運維體系中嵌入SRE是一項大的挑戰,離不開(kāi)主管部門(mén)、金融機構、IT運維服務(wù)廠(chǎng)商以及第三方科研機構的共同研究、實(shí)踐和總結。金融機構可以根據自身的組織狀態(tài),選擇合適的路徑來(lái)落地應用SRE運維模式,以達到降本增效,提高業(yè)務(wù)可用性的目的。為此,恒生電子已成立了SRE專(zhuān)項工作組,旨在助力金融機構推動(dòng)SRE運維體系的平穩落地。