YYYYMMDD-用户产品研发部CaseStudy模板

简介 故障描述处理过程故障原因解决方案原因分析(5WHYS)存在问题后续TODO模板说明线上故障CaseStudy请根据此模板书写,确保整个事业群遵照同一标准标题格式“YYYYMMDD-故障标题-CaseStudy”,标题请确保简洁、准确、具体CaseStudy务必做到对事不对人、追根溯源,最终目标是举一反三、避免类似问题反复出现线上故障务必周知QA新增JIRA记录,发CaseStudy到K12用户钉钉

  • 故障描述

  • 处理过程

  • 故障原因

  • 解决方案

  • 原因分析(5 WHYS)

  • 存在问题

  • 后续TODO


模板说明

  • 线上故障CaseStudy请根据此模板书写,确保整个事业群遵照同一标准

  • 标题格式“YYYYMMDD-故障标题-CaseStudy”,标题请确保简洁、准确、具体

  • CaseStudy务必做到对事不对人、追根溯源,最终目标是举一反三、避免类似问题反复出现

  • 线上故障务必周知QA新增JIRA记录,发CaseStudy到K12用户钉钉群,P1/P2级别故障还应召集CaseStudy会议



 

故障描述

填写说明

  • 故障起止时间应精确到秒,避免模糊化。以故障开始和服务恢复时间为准,涉及到数据修复的,额外增加一个时间段

  • 故障影响范围应涵盖受影响用户群、业务种类、业务系统模块

  • 损失评估是故障定级的关键依据,需给出确切或估算影响用户数、时间、交易/金额损失等数据

  • 故障定级请参照 许毅 的故障定级方案(待补充)

故障现象:

起止时间:

影响范围:

造成损失:

故障定级:由QA来定级,定级标准参考 公司故障定级

责任人/组:

处理过程

填写说明

  • 线上故障处理的最高原则是尽快恢复服务,降低损失
  • 定位问题模块、故障原因,采取行动恢复线上服务正常运转为此环节首要任务
  • 请在本节详细记录何时、何人、何种动作、结果如何以便事后复盘

 

  • HH:MM:SS (何人何种操作导致)故障开始 

  • HH:MM:SS 何人报告线上出现何种现象故障 

  • HH:MM:SS 何人开始跟进调查、有何发现

  •  ......

  • HH:MM:SS 何人采取何种动作、有何结果

  • HH:MM:SS 线上服务恢复正常,故障解决(Resolve故障Task)

 

故障原因

如果是Code Bug请用Code说话:解释清楚为什么某段Code造成这个问题

解决方案

如果是Code Bug请用Code说话:清楚说明Code Change以及为什么可以解决这个问题


原因分析(5 WHYS)

填写说明

  • 线上故障原因分析至关重要,如果不能追根溯源找到问题的关键,改进、避免就无从谈起

  • 美团线上故障统一采用5 Whys分析法,相关介绍参见 5whys分析法在美团工程师中的实践

 

  1. 为什么出现这个故障? 

  2. 为什么...


存在问题

 综上所述,这个线上故障总共暴露出如下一些问题:

  1. Code Review机制流于形式 

  2. 测试覆盖不够全面

  3. ......


后续TODO

填写说明

  • 从事前预防、及早发现、快速定位、举一反三等角度,认真思考改进措施,明确需要采取的行动、负责人、时间计划

  • 改进事项应避免空洞无物,符合SMART原则,明确、具体、可执行、可衡量、有确切完成时间

  • 改进事项完成情况包括: TODO 、DOINGDONECANCEL

  • 改进事项完成情况请及时更新周会统一回顾之前CaseStudy的改进情况

序号

action

预计完成时间

完成情况

负责人

备注

1code reviewYY-MM-DDTODOxxxx
2




3




4





Top Top