IT技术已经无处不在,各行各业都离不开它。无论是银行、券商、家庭、学校还是个人,都离不开IT技术。例如:
这些我们看不见摸不著的“服务”在保障着我们的衣、食、住、行等各个方面。一旦这些系统出现异常事件(如网络中断、系统不能登录访问、交易失败),就会严重影响我们的生活。
IT系统出现服务中断是不可避免的。因此,在事件发生时,我们必须以消费者能够容忍的方式来管理、分析、处置事件。
统一事件管理系统是任何一家企业不可或缺的基础设置。它的主要使命:与数据中心整个运维体系的工具系统进行集成、使用机器学习分析问题,并在第一时间自动采取行动解决问题。它能有效提高团队生产力,并保障为最终用户提供出色的数字体验。
统一事件管理是数字化企业必不可少的基础设施
本文将探索统一事件管理的最佳实践,包括:
在TIL 4版本中,事件被定义为服务意外中断或服务质量下降。
为确保客户满意度,企业必须采取适当的处置策略来应对不同的事件。以下是一些系统中发生服务中断或异常的典型事件:
事件管理的目标是通过一定的手段和方法尽快恢复正常服务来最大程度的减少事件的负面影响。
无论是用户无法登录、交易缓慢还是打印机无法打印,我们都应该具有针对不同事件类型拥有事件管理流程。根据事件的严重等级,可以由个人、团队或多个团队共同协作来完成对事件的处置。成功的组织会在事件或应急场景下指定事件或应急指挥员角色,负责领导师临时跨职能团队,集中所有团队成员的能力快速解决问题。
事件管理的目标是通过一定的手段和方法尽快恢复正常服务,最大程度地减少事件的负面影响。
无论是用户无法登录、交易缓慢还是打印机无法打印,我们都应该拥有针对不同事件分类的事件管理流程。根据事件的严重等级,可以由个人、团队或多个团队共同协作来完成对事件的处置。成功的组织会在事件或应急场景下指定事件或应急指挥员角色,负责领导临时跨职能团队,集中所有团队成员的能力快速解决问题。
事件管理的第一步是记录事件。可以通过一些监控工具或由客户电话报障的方式获取事件,并通过一些自动化的手段获取通知,同时可以获取该事件的相关信息,包括描述、发生时间、告警来源、针对什么所发生的事件(如某个主机、某个业务)。记录的事件信息将成为后续管理事件并对其进行分析、决策、处置的基础,包括:
成功的事件管理依赖于清晰地定义客户容忍的任何事件的持续时间和处理方式。这些通常在服务级别协议(SLA)或合同中定义,其中最重要的部分是定义响应和解决事件的时间表。
作为服务提供商,如何构建相应的组织并处理不同类型的事件是事件管理执行的主要职责:
我们将通过三个不同规模的事件来说明如何使用预先定义的最佳实践和标准来处理常见的事件。
某银行的私人银行中心经理张正在尝试登录银行的私人银行系统,以查看他所分配到的客户名单中是否有近期的拜访安排。然而,她的访问认证没有通过,尽管她尝试了重置密码,但仍然无法登录,于是她联系了IT服务台。
IT服务台经理小王获取了张经理的详细信息并验证了她是否是该银行的私人银行中心经理。验证通过后,小王登录私人银行系统管理员模块并检查了张经理的个人资料以及相关配置。结果发现,由于调岗的原因,个人资料中的某些更改没有正确执行,导致了错误。
小王针对这些更改进行了触发并重新执行。然后张经理重新尝试登录,并成功地登录了系统。小王关闭了工作台上的事件记录,同时系统向张经理发送了满意度调查。张经理非常满意,给小王打了5星的好评。
小王继续检查私人银行系统相关的更改情况,其他人的更改都已经正常运行。小王确认“不需要创建工单”。
IT服务台李经理注意到电话数据增加,基本上都接到同样的事件:手机转账长时间没有响应。同时从告警工作台的值班经理处获得某业务系统的数据库错误,他们正在处理该问题。
李经理评估这是一个重要的服务事件,他立即登录ITSM系统发布了手机转账问题的一个公告,并立即创建了一个事件工单,要求所有团队收集到的与该问题相关的事件(包括IT服务台和统一事件管理平台的告警工作台)关联起来,以便集中进行管理,而不需要浪费重复的资源分别进行处理。
10分钟后,李经理收到了从IT经理那里得到的最新消息,该系统现在恢复运行,因此他重新要求IT服务台的多名值班人员验证手机转账业务,确认他们已经恢复正常,并关闭了工单。
他在ITSM系统中重新更新了公告的内容。
"不好了!",NOC 值班工程师小李惊呼道。
统一事件管理平台的告警工作台发现告警风暴,屏幕上不断有新的告警涌现。大量的虚拟机出现了宕机情况,这意味着要么是核心交换机出现故障,要么是虚拟机管理程序出现问题。
小李在 ITSM 系统上登录了该事件,并将其定义为重大事件。他联系了云管理员和网络管理员并召开了会议。
作为一家公有云服务商,公关经理也需要参与进来,因为她需要实时了解事件的情况、严重性、影响范围等,并需要及时通知客户以应对该事件可能造成的舆论压力。
云管理员很快发现这是虚拟机管理程序上的一个错误造成的。他们立即电话联系了虚拟机管理程序的供应商。同时,云管理员将该事件的优先级调整为最高。
由于越来越多的虚拟机出现问题,电话涌入呼叫中心,CEO 也亲自介入,并亲自打电话给受影响的大客户。此时供应商还没有尽快响应该事件,但是 CTO 已经触发了应急响应,该事件在 2 小时内得到解决。
接下来的一段时间里,CTO 组织进行了事件复盘,以查明事件的根本原因,供应商也参与其中。形成事件报告,针对报告的内容会发起一系列的研发、测试及变更计划,以确保此类事件不会再次发生。
从三个不同规模的示例中可以看出,在进行事件或应急响应的过程中,为了满足客户的服务需求,您的IT团队将按照以下最佳实践的过程执行各种活动,主要包括:
事件检测通常包括以下三种方式:
一般情况下,事件的记录是通过系统来完成的,这些系统提供了对历史事件的管理、总结及分析的能力,包括:
在事件分类阶段,主要根据以下内容对事件进行分类:
分类有助于:
事件诊断的核心在于确定出了什么问题,以及针对该问题恢复正常服务的最快方法。
如果事件之前已经发生过且已经命中了事件模型,则可以由一线人员直接进行诊断即可。但是,对于更复杂或之前没有发生过的事件,则需要跨职能团队或由二线的专家进行联合调查。
事件的解决是指诊断完成之后,针对该事件的解决方案,包括临时修复解决方案和永久修复解决方案。一般在应急及事件处置过程中不追求永久修复,而是希望在最短的时间内通过一系列的操作尽快恢复生产。主要的操作包括以下几种 :
一旦事件得到解决,就需要对该事件进行正式关闭。关闭需要完成以下动作:
事后复盘往往被许多组织所忽略,但其是进行知识总结、优化监控、优化事件处置、优化现有事件及应用流程必不可少的重要环节。
事件复盘一般在事件发生后5个工作日内完成,在这一环节一定要设置审查岗,详细审查运维工程师针对事件处置的总结报告,报告主要内容包括: