欢迎来到格策美文网
更新日期:2025-05-27 17:27
写作核心提示:
撰写关于运维上半年工作总结的作文时,应注意以下事项:
1. 结构清晰:文章应具备明确的结构,包括开头、正文和结尾。开头简要介绍运维工作背景和总结的目的;正文详细阐述上半年运维工作的成果、亮点、不足及改进措施;结尾总结全文,展望未来。
2. 突出重点:在总结上半年工作成果时,要突出重点,对关键性事件、项目或问题进行详细阐述。避免泛泛而谈,确保总结内容具有针对性。
3. 数据支撑:尽量用数据来支撑总结内容,如运维效率提升、故障处理时间缩短、系统稳定性提高等。数据可以直观地反映运维工作的成果,增加说服力。
4. 客观公正:在总结工作中,要客观公正地评价自己的表现,既要展示成绩,也要正视不足。对于存在的问题,要提出切实可行的改进措施。
5. 体现团队精神:运维工作是一个团队协作的过程,总结时要体现团队精神,强调团队协作的重要性。对团队成员的贡献给予肯定,共同分享成果。
6. 突出创新:在总结中,要突出运维工作中的创新点,如新技术应用、流程优化等。创新是推动运维工作发展的关键,要充分展示团队的创新能力和潜力。
7. 针对性分析:针对上半年工作中遇到的问题,进行深入分析,找出原因,并提出解决方案。分析要具有针对性,确保措施切实可行。
8
作者介绍
广发证券数字化运维研发团队,致力于通过数字化技术推动SRE转型,赋能稳定性保障,负责数字化运维体系的规划与建设,包括数字化运维体系规划、流程规程制定、运维平台研发、效能管理、持续交付、智能运维等工作。
为应对证券行业数字化转型、重要系统架构升级、云原生技术发展、信息技术创新,以及行业重大故障频发等多重复杂因素的影响,广发证券愈发重视系统稳定性和可靠性建设。系统稳定性不仅是证券行业软件开发的基石,更是贯穿从研发到部署的每一个环节,与整个软件生命周期紧密相连。接下来我们将围绕系统稳定性保障工作,针对软件生命周期在上线前的运维左移工作,总结工作思路与实施策略。
传统的运维团队主要聚焦于变更管控、容量优化、风险挖掘等例行工作,以及系统故障应急发现、定位、处置、恢复等能力建设。在日常的生产运营中,发生连续性故障会大大降低客户体验,而仅靠出现故障后被动应急的方式很难满足证券行业对客户体验的高要求。因此,我们团队认为系统需要具备韧性,以应对可能出现的生产故障。
为此,广发证券信息技术部运维团队的工作不局限于传统运维部门快速处理故障和发布变更等被动性工作,而是积极推动转变角色定位,并将工作重心左移。运维左移要求运维人员需要参与到软件设计开发阶段,包括从架构设计到关键功能逻辑实现的环节,从而构建一个具有良好可运维性的软件交付机制。其重点是推动系统具备以下7项能力(后面简称“7支柱能力”)。
运维左移这七项能力与当前行业主流的SRE转型思路相似,SRE转型是指从传统运维角色向Site Reliability Engineer(网站可靠性工程师)角色的转变过程。在广发证券运维团队的业务建设中,我们积极汲取行业SRE的最佳实践,推动组织架构、人员能力、流程机制、平台能力、运维场景的建设,比如今年运维团队积极推进的一些运维左移的举措,如SRE三线风险挖掘、业务监控、运行评估、系统效能评估、“周三架构韧性评审日”、数字化变更管控、数字化预案、智能化容量评估、智能化日志模式分析等工作。
运维左移恰逢其时。运维左移强调在确保系统稳定性的基础上,运维团队应在软件交付到生产环境之前加大投入,以实现运维的价值创造。在当前变更风险复杂、交付速度加快以及稳定性SRE转型的背景下,运维左移的意义愈发凸显。
在实践中,运维人员需要跳出传统运维的框架,利用自身接近一线生产数据的优势,以更主动的姿态参与软件开发的全生命周期。包括在系统设计和部署阶段就进行数据埋点,以便在运行阶段预见并解决潜在风险,实现从被动响应到主动预防的转变。同时,左移是一个跨团队的协同过程,需要与开发、测试、基础设施平台、外部供应商等各方资源联合,共同推动技术平台的可扩展性和弹性,提升应用系统架构的韧性,以及交付相关可运维性需求。运维左移不仅提升了系统的稳定性,还有助于企业内跨团队的角色更好地理解运维工作,并激励运维人员更深入地参与到具体应用层面,形成良性循环。
左移是稳定性保障工作的演进产物。左移并非一项全新的工作内容。早在很多年前,行业很多运维团队就提出要走出运维的“舒适区”,提前介入软件的立项可行性、概要设计、详细设计、变更评审等阶段。目标是在上述阶段更早地介入,以发现潜在的变更风险并提前做好资源准备。
随着组织架构的发展,运维参与上线前的工作事项越来越多,可以说运维左移是组织在稳定性保障工作中不断深化的成果。同时,许多组织在一系列事件的驱动下,不断对运维管理进行“加法”,形成了包括架构韧性设计、非功能性需求、业务与技术风险评审、部署架构、资源规划与交付、非功能性测试、功能性测试、变更评审、变更发布、上线保障、线上稳定性保障、成本优化、系统下线等全流程的工作内容,这些内容要做深做透单靠运维总有欠缺。因此,运维左移需要运维人员具备软件工程师思维(相较于具备开发能力,更易转型),加强跨部门的沟通与合作,真正深入到软件设计、研发、测试阶段,提升各项工作的深度和效果。
SRE正在重塑运维左移。SRE专注于提升系统的可靠性和稳定性,通过设定明确的SLO和SLI,激励团队采取一切必要措施来实现SLO目标。SRE倡导的从被动到主动的思维转变,将更有效地推动左移目标的实现。其次,SRE聚焦于系统的稳定性,就需要深入到软件生命周期的各个环节,并达成一些共识,比如我上面提到的“7支柱能力”。此外,运维左移是一项重要的跨团队协同工作,它推动了协同机制和平台能力的支持落地。例如,SRE倡导在工程方面的投入,通过增强运维平台的工程能力,降低研发团队在配合落地“7支柱能力”方面的数据埋点、非功能性需求的门槛,并让研发团队也能在这个过程中受益。这种共赢的方式有助于促进左移机制的有效实施,确保团队能够更高效地协同工作,共同提升系统的稳定性和可靠性。
为了确保系统的稳定性,运维团队不仅要构建和完善支持稳定性的技术平台与基础设施,还需要与软件架构师、研发人员、应用运维、平台软件运维以及基础运维等不同角色进行有效沟通和协作。通过共同深入参与到SDLC(软件生命周期)的各个阶段,我们可以增强应用架构的弹性。
1、故障可恢复
故障的可恢复性意味着,在IT系统因内部或外部因素导致业务中断或面临故障风险时,系统应能够感知到故障,并迅速采取应急措施以恢复业务连续性。以往,运维工作主要聚焦于容灾、服务、主机等维度的高可用性,但这些措施并不足以应对当前复杂脆弱的生产运行风险。例如,在近期的突发行情中,我们深刻认识到限流与降级对于交易、终端等系统来说是必要的故障可恢复能力。因此,运维左移需要考虑“系统关键业务功能”的容错能力设计,这包括了解关键业务功能的路径涉及哪些服务节点和关联基础设施,依赖哪些通用技术平台和上游服务,以及在这些节点部分或全部出现异常时,系统功能是否具备容错能力,系统设计是否具备预测、识别、隔离等能力。可恢复性的一些关注点包括:
2、性能可扩展
性能的可扩展性指的是,在业务增长、用户流量突增或面临生产性能故障时,系统能够通过灵活调整资源和服务配置来满足不同的性能需求,展现出架构的弹性。这要求系统在设计阶段就应具备评估容量的能力,并能在不同负载下实现自动化的弹性伸缩。系统的可扩展性不仅涉及自身,还包括其依赖的基础设施,这些基础设施必须具备足够的弹性,以便快速响应资源需求的变化,确保服务的高可用性。此外,系统还需依赖自动化工具和监控系统来实时监控性能指标,并在必要时自动触发资源的扩展或缩减。在性能可扩展性方面,运维左移不仅要在架构层面确保性能的可扩展性,还应制定性能扩展预案,并定期进行压力测试和演练,以确保系统在实际业务增长或高流量事件中能够平稳过渡。性能可扩展性的关注点包括:
3、业务可监控
监控是确保系统稳定运行的核心措施,其能力构建应从基础设施层向上延伸至客户体验层,涵盖基础设施监控、硬件服务器监控、平台软件监控、应用可用性监控、应用功能监控以及性能和客户体验监控。在基础设施、硬件和平台软件层面,以及部分性能监控方面,可以利用通用技术方案来提升监控的广度和时效性。然而,应用可用性、功能可用性和客户体验的监控往往依赖于运维团队基于经验和事件驱动的“打补丁”的解决方案,这种方法存在诸多不足。为了提高业务监控的效率和准确性,需要在系统设计阶段就融入业务监控功能。这要求产品和研发团队,凭借对系统业务、组件、接口、功能和用户体验的深刻理解,设计出更为精准的监控方案。通过这种方式,可以系统性地提升应用层面的监控质量,减少依赖“打补丁”的监控模式,从而更有效地保障业务连续性和客户满意度。业务可监控关注点包括:
4、问题可观测
运行的可观测性,从狭义上讲,是指通过系统生成的数据来观察其内部状态,以便进行故障排查的能力。目前,许多监控和APM供应商正在其以metric和event为主的解决方案上,融入OTEL标准,重点增强trace功能,并尝试与log关联,以实现一个综合性的技术方案。与监控方案相比,可观测性技术方案的最大区别在于,监控通常是从系统外部进行监测,而可观测性则是从系统内部进行剖析,提供排障定位辅助。可观测性技术方案之所以吸引行业关注,一方面是因为分布式系统和系统依赖变得越来越复杂,需要有一种简洁的方案来实现复杂系统的问题剖析。另一方面,由于可观测主流方案采用一种“通用”的技术方案来发现“未知”的异常,这为不想过多定制化的可观测供应商提供了广阔的想象空间。由于系统可观测性需要深入到系统应用逻辑,这与运维左移的思路非常契合,即在研发过程中推动日志、链路、指标的数据埋点。当前,可观测技术方案已初步形成了良好的生态系统,并持续降低了数据采集和控制的门槛。
然而,可观测技术方案的推行者与供应商有时会忽视专家经验的作用,这在企业推动中可能会产生不利因素。我们在推进可观测能力建设过程中,在上述狭义可观测(log、metric、trace)的同时,也推动帮助专家沉淀问题剖析经验的编排。专家经验编排类似于我们去医院问诊时,医生会让病人先做一系列身体检查,即让一线运维专家与研发专家提前编排好一个系统是否健康的检查项。问题可剖析关注点包括:
5、变更可管控
变更涉及对生产环境中的程序、配置、参数和数据进行干预,这种行为常常是生产故障的主要诱因。公司围绕变更管控制定整体工作计划,并在软件交付前投入大量精力。变更管理实质上是一种跨周期、跨团队的生命周期管理,形成了以月、双周、周为周期的迭代循环,包括“变更计划、变更申请、变更评审、变更发布、变更验证、首日保障、故障应急、复盘优化”等环节。变更管控应从软件设计阶段就开始融入,例如在研发设计阶段推动应用软件在制品、应用配置、数据库脚本的持续交付(CD)自动化发布,并进行变更涉及的风险分析和影响面评估。除了自动化变更操作外,还应准备变更操作手册和变更回滚方案,对于无法回滚的变更应作为高风险变更进行左移保障。
此外,变更管理不仅涉及软件发布,还包括环境配置、业务参数等变更操作行为,SRE应收集并重点管控这些重要参数或配置变更。对于高危变更操作,应实施严格的防御控制措施,包括变更审批流程、变更窗口控制以及变更前的自动化测试,以确保变更操作的安全性。这些控制措施应在软件部署流程中预先设计,并在变更操作前进行严格的风险评审。变更可管控关注点包括:
6、部署可感知
部署可感知指的是将构成系统所有软硬件及其依赖资源数字化,实现对资源对象状态及变化的实时感知。部署可感知能力使得从整体系统资产到微观的环境配置或业务参数,都能被随时观测和掌握。通过数字化系统资源和实时监控变化,不仅能够透明化的管控系统资产对象,还增强了在系统故障时定位问题和系统恢复能力。以往,系统的资源对象信息主要通过CMDB以配置项形式数字化,但在应用层面的信息管理尚显不足。研发及供应商是最熟悉一个系统的稳定运行需要哪些配置及参数设置,运维左移需在基础设施到操作系统、平台软件层面建立通用基线配置,并要求研发或供应商以系统部署说明书的方式,提供系统个性化配置。个性化配置信息应涵盖操作系统环境、应用配置、技术参数、业务参数、数据库结构及参数、中间件配置等。运维团队在接收到这些配置后,需将其数字化,并实现对配置变化的感知,以实现系统的部署可感知。部署可感知可关注以下几个方面:
7、效能可评估
效能可评估是指通过数字化手段量化系统运营的效果,识别并优化低效的系统资源,以提升整体的系统资源效能。在经济波动和下行压力下,企业对成本管理和效能提升的需求日益迫切,IT资产的成本管理逐渐成为企业运营中的一个重要部门。Gartner的研究表明“提升IT资产效能已成为企业考量IT部门的关键内容,但全球范围内,只有不到25%的公司具备适当的IT资产管理规划。有效的IT资产管理可以使企业的总拥有成本至少降低15%,而缺乏或质量低下的IT资产管理每年可能增加超过10%的资产成本。此外,约40%的客户IT资产没有通过任何工具来跟踪监测,仅有10%的资产通过公共数据库来协调。”
因此,更充分利用现有资产、严格控制资产、获得更高的投资回报,不仅是企业对IT部门的期望,也是考量IT部门的重要内容。从运维左移的视角出发,在软件开发的初期阶段,就应对IT软硬件资产进行细致规划,一方面对评价系统效能的指标进行设计与数据埋点,另一方面需要以系统效能好坏来评价给高效及低效系统的资源配置,以更好的调度有效的IT资源。效能可评估可关注以下内容:
随着数字化转型的深入,运维左移已成为提升系统稳定性和可靠性的关键策略。未来,运维团队将持续推进SRE转型,建立机制鼓励运维人员的积极参与,通过跨团队合作,实现从被动响应到主动预防的转变。同时,运维平台化建设也将为研发和供应商提供平台服务,使他们能够基于左移的投入获得实际效益。左移不仅能够提升系统的稳定性,还能促进企业内跨团队的理解和协作,形成良性循环,共同推动技术的进步和业务的发展。
作者丨广发证券数字化运维研发团队
来源丨公众号:广发证券科技金融(ID:GFFinTech)dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
本站部分资源搜集整理于互联网或者网友提供,仅供学习与交流使用,如果不小心侵犯到你的权益,请及时联系我们删除该资源。