郵儲銀行智能運維應用探索
- 2023-08-09 瀏覽:2164
作者:中國郵政儲蓄銀行數(shù)據(jù)中心總經(jīng)理 馬德輝
新時期的IT運維不僅要完成對海量數(shù)據(jù)的實時采集,還要具備智能化分析能力,進而為運維決策提供數(shù)據(jù)支撐。與此同時,伴隨各類云原生應用的日趨成熟,按需分配、靈活調用的發(fā)展理念已深入人心,消除“虛實差異”成為當前數(shù)據(jù)中心實現(xiàn)“云化”轉型升級的關鍵挑戰(zhàn)之一。順應上述趨勢,智能化應用的快速發(fā)展為實現(xiàn)IT運維轉型提供了全新抓手,將為數(shù)據(jù)中心發(fā)展提供新動能。
一、運維體系能力
郵儲銀行借鑒互聯(lián)網(wǎng)企業(yè)的先進微服務化理念,通過搭建一體化運維平臺,實現(xiàn)運維體系轉型升級。一體化運維平臺從數(shù)據(jù)中心全局出發(fā),著眼未來發(fā)展規(guī)劃,打造以場景智能驅動的監(jiān)、管、控一體化的數(shù)字化運維平臺,實現(xiàn)全行運維向數(shù)字化、敏捷化、智能化發(fā)展的目標,向上與IT組織融合、向下與各類技術平臺融合、橫向與IT管理和操作流程融合,消除管理和操作之間的天然瓶頸,降低運維操作風險,提高運維服務水平及業(yè)務連續(xù)性,全面提升業(yè)務響應、問題處理、客戶服務質量和效率。新運維體系具備以下能力。
1.統(tǒng)一配置管理(CMDB)。配置管理需記錄數(shù)據(jù)中心所有軟硬件資源信息及資源間的關聯(lián)關系,作為自動化運維體系的基石,也是自動化運維體系建設的重中之重,是平臺監(jiān)控和自動化管理的前提與基礎。
2.統(tǒng)一監(jiān)控能力。需實現(xiàn)對兩地四中心基礎硬件、基礎軟件、應用告警、日志、云平臺等的統(tǒng)一監(jiān)控,建立集中告警管理,整合不同資源產(chǎn)生的各類運行告警,統(tǒng)一處理、集中展現(xiàn)。另一方面,需基于CMDB開展應用系統(tǒng)之間、應用系統(tǒng)與基礎資源環(huán)境之間的告警關聯(lián)分析,以便完成應用系統(tǒng)異常的故障根源分析和業(yè)務影響分析,提高快速定位、評估影響范圍、快速應急處置的效率,最終達到快速恢復業(yè)務的效果。
3.自動化運維能力。需實現(xiàn)對各專業(yè)條線的自動化操作,通過自動化全面覆蓋數(shù)據(jù)中心各運維場景,實現(xiàn)常用運維操作腳本服務化、日終作業(yè)集中化管理、業(yè)務應用的持續(xù)部署、重大災難時的快速切換、生產(chǎn)問題的一鍵處置,并通過與生態(tài)內其他工具的對接,為全行IT運維和運營提供全方位的自動化運維服務。
4.統(tǒng)一流程管理。數(shù)據(jù)中心的運維活動及對象涉及種類較多,需要從全局的角度進行計劃、組織、協(xié)調與控制。需具備一套統(tǒng)一的流程管理,將各類運維對象及運維活動進行流程化、電子化管理,實現(xiàn)操作合規(guī)、風險可控以及過程可視。通過流程管理,結合郵政金融信息系統(tǒng)現(xiàn)狀,建設實現(xiàn)工單管理、事務管理、問題管理、變更管理、發(fā)布管理、知識管理、作業(yè)計劃等運維工作流程,通過管理人員、技術和流程的有機結合,實現(xiàn)IT運維管理標準化和規(guī)范化,形成整體運維業(yè)務需要的IT管理體系。
5.統(tǒng)一門戶。針對用戶對應用系統(tǒng)的訪問操作,打造集中登錄與統(tǒng)一的賬號管控平臺。在不改變現(xiàn)有軟硬件及網(wǎng)絡環(huán)境的前提下,無縫整合數(shù)據(jù)中心現(xiàn)有應用系統(tǒng),實現(xiàn)統(tǒng)一的用戶端安全接入、統(tǒng)一的應用端安全訪問控制,以及訪問過程的細粒度安全管控。整體實現(xiàn)用戶對應用系統(tǒng)訪問的統(tǒng)一安全防護和管控,提高用戶工作效率,提升用戶使用體驗,保障安全合規(guī)。
6.移動運維能力。需搭建基于移動端APP的移動運維功能,以一體化運維平臺為依托,在安全運維基礎上,實現(xiàn)移動審批、集中數(shù)據(jù)展示等場景服務,保障對業(yè)務的快速響應和支持能力。
二、運維平臺建設
1.平臺功能架構。基于運維體系轉型要求,在平臺建設階段,郵儲銀行重點強化了“平臺化、服務化、智能化”等技術特點。“平臺化”主要指基于“平臺+APP”的方式開展集約化建設,即在一個統(tǒng)一的平臺上承載不同領域的運維工具應用APP,以實現(xiàn)集中建設、統(tǒng)一控制。“服務化”主要指在搭載運維工具時強調以CMDB為核心、以應用為中心、流程即服務等發(fā)展理念,并盡可能提高自動化操作比例,以實現(xiàn)內部處置效率和對外輸出質量的雙重提升。“智能化”主要指在運維平臺中構建大數(shù)據(jù)分析以及機器學習能力,以支持平臺在一定范圍內進行自主分析和決策,并通過算法開發(fā)促進組織級運維管理。
2.平臺業(yè)務架構。一體化運維平臺用戶主要涵蓋運維人員、業(yè)務人員、開發(fā)人員,平臺提供運維門戶、服務門戶兩大門戶入口。其中運維門戶主要面向運維人員,包含總行、省分行、廠商的運維人員,通過一體化運維平臺進行生產(chǎn)環(huán)境的發(fā)布、變更、投產(chǎn)相關操作,以及工單、流程的申請、審批和處理。平臺業(yè)務架構如圖1所示。
圖1? 平臺業(yè)務架構
三、探索智能運維場景
一是告警歸并。通過引入機器學習技術提取規(guī)則,使得出現(xiàn)告警風暴時大量減少原始告警噪聲、加快故障修復質效及降低故障處理成本。二是容量預測。在容量預測場景中采用智能化趨勢預測技術,基于指標預測算法,實現(xiàn)了容量監(jiān)控智能化管理及事前預測,支持提前預知容量使用情況。三是故障自愈。面向故障自愈場景,實現(xiàn)了告警管理、規(guī)則觸發(fā)服務以及運維自動化工具的有機組合,并通過逐步豐富規(guī)則庫來提升自愈覆蓋率(如圖2所示)。四是信息系統(tǒng)健康度管理。在現(xiàn)有運行監(jiān)控平臺的基礎上全新構建了一套信息系統(tǒng)運行健康度體系,旨在從數(shù)據(jù)治理、標準化建模、評估多維化等方面,以指標化數(shù)據(jù)體現(xiàn)信息系統(tǒng)綜合運行狀況。
圖2? 故障自愈處理流程
四、總結及展望
通過一體化運維體系和平臺的搭建,基于運維轉型和智能運維的探索研究,郵儲銀行的運維工作有了很多提升。
1.運維效率提升,企業(yè)IT成本降低。各運維場景自動化及智能化的建設與實施,使得操作執(zhí)行效率大大提升,操作完成時間得到保證。批量調度場景探索實現(xiàn)了原本分散的各系統(tǒng)日終的集中展示和處理;應用發(fā)布場景探索實現(xiàn)了一鍵升級發(fā)布,大幅減少操作時間,降低手工升級誤操作風險;災備切換場景探索有效提高應用系統(tǒng)RTO和RPO水平;應急處置場景探索提高了應急效率,管控操作風險。數(shù)據(jù)中心日常運維工作已向全面自動化和智能化轉變。
2.運維風險控制力提升。實現(xiàn)運維操作的標準化、自動化、智能化,確保操作過程可追溯、可管控、可審計,消除人工操作存在的誤操作、遺忘操作、隨意操作、惡意操作風險,預防重大事故發(fā)生。
3.運維工作向高價值服務轉型。將運維人力從低水平、重復性勞動中釋放出來,將其知識和技能應用于更有價值的工作和任務上,沉淀運維經(jīng)驗,形成知識庫,提升系統(tǒng)可靠性,提高運維人員工作價值,打造智慧型運維專家團隊。
4.運維工作場景化和服務化。通過統(tǒng)一的運維入口,避免工具割裂化的豎井管理,形成面向各位運維群體的標準化、可視化、服務化的操作平臺,實現(xiàn)運維工具的流轉和共享,讓運維工作持續(xù)的模板化、服務化,將長期積累的經(jīng)驗和知識落地,形成運維生態(tài)化的發(fā)展體系,從而利于智能化場景的進一步擴大,提升數(shù)據(jù)中心服務質量和服務效率。
本文來源:微信公眾號《金融電子化》
免責聲明:所載內容來源互聯(lián)網(wǎng)、微信公眾號等公開渠道,我們對文中觀點保持中立,僅供參考、交流等非商業(yè)目的。轉載的稿件版權歸原作者和機構所有,如有侵權,請聯(lián)系我們刪除。