阿里云官网近期发布了 CDN 应急响应服务方案,为 CDN 及相关业务系统提供覆盖服务故障与安全事件的双重应急保障。在服务故障方面,方案支持 7×24 小时响应、分级处理、专家团队快速定位修复以及重大故障升级预案,能够有效保障业务连续性;在安全事件方面,支持远程或现场专家介入,快速遏制攻击、清理恶意程序、开展溯源分析,并提供修复建议、加固指导和应急报告,帮助客户降低风险,进一步提升 CDN 服务的稳定性与安全性。
服务故障主要指的是因阿里原因造成的客户服务不可用或者服务中断类故障;而故障等级的划分,是根据故障实际影响范围、客户数、受影响带宽(流量)比例和故障时间来区分。
# 服务故障应急响应
# 事件响应组织
事先无法预测的突发事件由阿里云与客户双方面配合,联合解决。阿里云可提供7*24小时多种紧急联系方式,客户可随时联络阿里云服务团队,阿里云服务团队将和客户协商应急方案,确定方案后在10分钟之内开始实施,并定期通报方案实施进展,直至客户满意为止。

阿里云可针对客户提供企业级钉钉群的7*24小时的技术支持服务,客户问题可以第一时间在钉钉群提出,由专业的售后支持团队对接,客服工程师负责第一接口人,对问题进行初步的定位,如果问题解决不了,将问题升级,交由PDSA产品架构师来做进一步的排查定位,如果问题仍然解决不了的话,PDSA会和运维工程师以及研发一起来对问题进行深入的排查,直到问题闭环。
# 应急响应流程
| 序号 | 环节名称 | 环节说明 | 责任人 | 备注 |
|---|---|---|---|---|
| 1 | 发现服务质量问题 | (1) 客户发现服务质量问题(2) 客户向其对应的运营/PDSA | 客户 | |
| (1) CBM/SA传递客户投诉 | CBM/SA | |||
| (1) 阿里CDN业务巡检发现问题 | 阿里云 | |||
| 2 | 收集问题信息并确认 | (1) 接受来自自身监控系统、客户投诉与问题反馈,记录问题(2) 通过投诉问题分析后,确定问题归因方是客户还是阿里 | SA/CBM | 无法快速定位,每半小时反馈处理进度 |
| 3 | 投诉问题处理 | (1) 当问题归因为客户自身问题时,阿里云技术人员要解释清楚,并辅助客户完成相应问题处理 | 客户 | |
| (1) 当问题归因为阿里云时,PDSA对投诉问题进行初步的诊断,并作出相应处理 | PDSA | |||
| (1) PDSA无法解决或需要运维部协助时,由运维部PE 进行处理 | 运维部PE | 紧急问题半小时内解决,常规1天;每半小时反馈处理进度 | ||
| (1) 若由于产品等自身原因,运维部无法解决时,由研发中心的产品部负责进行处理(2) 若由于产品设计等原因,产品部无法立刻解决的,进入到产品改进子流程 | 产品部 | 可以马上解决的立即解决;不能马上处理的问题,2天内反馈 | ||
| 4 | 协助部署实施 | (1) 当产品重新开发完成后,或产品部找出问题处理方案时,由运维部负责进行部署实施 | 运维部 | |
| 5 | 对问题处理结果进行测试 | (1) 当问题处理完成后,跟踪投诉的客服人员/项目经理对处理结果进行测试,确保问题处理完成 | PDSA /SA | |
| 6 | 反馈问题处理结果并跟踪 | (1) 由PDSA向客户反馈处理结果,客户判断是否认可,若认可则流程结束,若不认可,则重新进入流程(2) 持续跟踪处理后的服务质量问题,并对客户提出的疑问进行解答 | PDSA/SA |
# 普通故障应急流程
GTS/PDSA负责收集问题信息,并提交aone 工作平台记录该问题,同时初步判断问题归因方是客户还是阿里。
客户原因的问题或不合理的投诉,PDSA,并在能力范围内协助客户解决问题。
阿里原因的问题,PDSA做初步判断和处理,对于没有分析思路,或者不确认的问题,可以立即将问题通过平台转交给运维问题处理岗位同事。
运维问题处理岗位同事接收到客户的问题后,需要立即进行分析和处理,对于出现下列情况的之一的,需要立即将问题通过平台转交给运维产品运营同事:
- 非服务中断性问题,在30 分钟内没有分析思路的;
- 服务中断性问题,如果5 分钟没有分析思路的,或者30 分钟内没办法解决的;
- 运维产品运营同事接收到客户的问题后,需要立即进行分析和处理,如果没有分析思路或者确认需要产品研发处理的,需要立即将问题反馈给产品研发同事,并及时跟踪处理结果。
- 对于CBM/SA 判断为重大问题的,可以立即要求运维、产品一起参与分析和处理。
- 问题解决人需要及时更新问题的处理过程,阶段性状态,处理完成后需要立即补充问题的原因及其他相关信息,并转给问题提交人进行确认。
- 产品部对问题继续进行判断和处理。若无法及时解决的,应反馈并提出临时方案。若需研发的,提交研发处理。
- 解决问题需要特别配置的,由产品部直接做内部需求提交运维配置。需要研发的,在研发完成后,由产品部安排产品升级相关事宜并协同运维升级。
- 当问题处理完成后,客服/项目经理对处理结果进行测试,确保问题处理完成。
- 测试通过后,由PDSA 向客户反馈。客户判断是否认可,若认可则流程结束,若不认可,则重新进入流程。
# 重大故障应急流程
若发生服务可用性突然下降至50%,定义为重大故障,在重大故障发生后15 分钟内尚未能解决的,建议客户先设置回源,启动故障流程的SA/PDSA 立即通知相应的产品负责人、运维部负责人及所在部门主管;若涉及到资源问题的,需通知资源部负责人。通知时,优先采用电话或当面知会;其次,企业钉钉群将相关人员加入群里方便讨论;最后,撰写邮件知会到产品、售前、客服、管理等邮件组;
根据应急预案,PDSA组织人员按相关预案进行处理,产品负责人对处理过程进行跟踪,并决定是否通知研发部;
产品负责人需在20 分钟内提供紧急处理方案及解决时间,并决定是否通知研发部门参与配合解决;
若20 分钟后若仍未有明确解决方案,PDSA/SA反馈给流量产品事业部负责人和产品部负责人;并根据故障影响范围确认通报对象,具体通报由产品运营执行;缩短实施流程
若故障后1 小时内仍未有明确解决方案,PDSA/产品组织相关人员在应急指挥室讨论解决方案; 每2 小时通报一次故障情况。若有重大进展也必须及时通报知会;
产品部/运维对客户做的相关调整及调整可能带来的影响,需知会相应PDSA/SA ,运维做好调整记录。
# 安全应急响应方案
# 安全事件应急服务内容
阿里云安全事件应急响应服务根据安全事件类型的不同需求,可分为“事件处理”及“事件分析(远程)”和“事件分析(现场)”三种规格。不同规格服务内容如下:
| 服务规格 | 服务内容 |
|---|---|
| 事件处理 | 服务器被黑客入侵后提供的远程应急处理服务,包括:排查主机是否被黑客入侵对进行中的攻击进行处理,阻止黑客进一步攻击全面查找和清理病毒、蠕虫、木马等恶意程序全面查找和清理Web站点中的WebShell、暗链、挂马页面等对因入侵而导致的异常进行处理,帮助客户快速恢复业务提供安全应急服务报告 |
| 事件分析(远程) | 安全技术人员远程提供的应急处理及分析服务,包括:排查主机是否被黑客入侵对进行中的攻击进行处理,阻止黑客进一步攻击全面查找和清理病毒、蠕虫、木马等恶意程序全面查找和清理Web站点中的WebShell、暗链、挂马页面等对因入侵而导致的异常进行处理,帮助客户快速恢复业务分析黑客入侵手法,尽可能找出入侵原因-分析黑客入侵后的行为,判断入侵造成的影响提供修复建议,指导用户进行安全加固,防止被再次入侵提供安全应急服务报告 |
| 事件分析(现场) | 安全技术人员到用户现场提供的应急处理及分析服务,包括:排查主机是否被黑客入侵对进行中的攻击进行处理,阻止黑客进一步攻击全面查找和清理病毒、蠕虫、木马等恶意程序全面查找和清理Web站点中的WebShell、暗链、挂马页面等对因入侵而导致的异常进行处理,帮助客户快速恢复业务分析黑客入侵手法,找出入侵原因-分析黑客入侵后的行为,判断入侵造成的影响提供修复建议,指导用户进行安全加固,防止被再次入侵提供安全应急服务报告 |
# 安全事件应急服务流程
阿里云安全团队拥有经过阿里云认证的安全专家,能够帮助客户在遇到网络安全的突发事件时进行迅速、准确地发现并解决问题,将损失降低到最小。
安全事件应急响应服务流程如下:

- 分配专家资源:
当客户出现应急需求后,阿里云后台管理系统会根据客户安全事件情况,为客户分配合适的安全技术专家。
- 事件确认:
安全工程师与客户联系对接,通过与客户交流了解事件具体详情,并记录问题情况
登录被入侵系统查看实际系统状态
根据客户描述现象与系统实际现象,对事件进行确认,定性
- 事件抑制:
如果在响应过程中,发现黑客正在进行攻击,或者有其他可能会进一步破坏系统的行为,安全工程师将采取抑制手段, 抑制事态发展是为了将事故的损害降低到最小化。
在抑制环节,常见的手段有:
断开网络连接
关闭特定的业务服务
关闭操作系统
- 事件处理:
在对安全事件进行原因分析之后,安全工程师将进一步对安全事件进行处理,具体工作包括:
清理系统中存在木马、病毒、恶意代码程序
清理Web站点中存在的木马、暗链、挂马页面
恢复被黑客篡改的系统配置,删除黑客创建的后门账号
删除异常系统服务、清理异常进程
在排查问题后,协助恢复用户的正常业务服务
- 入侵原因分析(高级服务能力):
从网络流量、系统日志、Web日志记录、应用日志、数据库日志,结合安全产品数据,分析黑客入侵手法,调查造成安全事件的原因,确定安全事件的威胁和破坏的严重程度。
由于部分安全事件会因为黑客清理了日志或者系统未保留相关日志从而导致无法定位入侵原因,因此本服务将尽可能的分析出原因,但不承诺一定能分析出入侵原因。
- 提交报告:
事件处理完毕后,根据整个事件情况写《阿里云安全事件应急响应报告》,文档中阐述整个安全突发事件的现象、处理过程,处理结果、事件原因分析(高级服务能力),并给出相应的安全建议,客户在获取报告后可以在对报告内容进行确认,也可以对服务过程向阿里云提出反馈或投诉。
- 结束阶段:
在安全事件处理结束后,阿里云将继续跟踪事件处理结果,对安全工程师的服务过程和服务质量进行审查。