YYYYMMDD-用户产品研发部CaseStudy模板
- 工作小总结
- 时间:2021-07-20 10:27
- 3184人已阅读
🔔🔔🔔好消息!好消息!🔔🔔🔔
有需要的朋友👉:联系凯哥
故障描述
处理过程
故障原因
解决方案
原因分析(5 WHYS)
存在问题
后续TODO
模板说明
线上故障CaseStudy请根据此模板书写,确保整个事业群遵照同一标准
标题格式“YYYYMMDD-故障标题-CaseStudy”,标题请确保简洁、准确、具体
CaseStudy务必做到对事不对人、追根溯源,最终目标是举一反三、避免类似问题反复出现
线上故障务必周知QA新增JIRA记录,发CaseStudy到K12用户钉钉群,P1/P2级别故障还应召集CaseStudy会议
故障描述
填写说明
故障起止时间应精确到秒,避免模糊化。以故障开始和服务恢复时间为准,涉及到数据修复的,额外增加一个时间段
故障影响范围应涵盖受影响用户群、业务种类、业务系统模块
损失评估是故障定级的关键依据,需给出确切或估算影响用户数、时间、交易/金额损失等数据
故障定级请参照 许毅 的故障定级方案(待补充)
故障现象:
起止时间:
影响范围:
造成损失:
故障定级:由QA来定级,定级标准参考 公司故障定级
责任人/组:
处理过程
填写说明
线上故障处理的最高原则是尽快恢复服务,降低损失
定位问题模块、故障原因,采取行动恢复线上服务正常运转为此环节首要任务
请在本节详细记录何时、何人、何种动作、结果如何以便事后复盘
HH:MM:SS (何人何种操作导致)故障开始
HH:MM:SS 何人报告线上出现何种现象故障
HH:MM:SS 何人开始跟进调查、有何发现
......
HH:MM:SS 何人采取何种动作、有何结果
HH:MM:SS 线上服务恢复正常,故障解决(Resolve故障Task)
故障原因
如果是Code Bug请用Code说话:解释清楚为什么某段Code造成这个问题
解决方案
如果是Code Bug请用Code说话:清楚说明Code Change以及为什么可以解决这个问题
原因分析(5 WHYS)
填写说明
线上故障原因分析至关重要,如果不能追根溯源找到问题的关键,改进、避免就无从谈起
美团线上故障统一采用5 Whys分析法,相关介绍参见 5whys分析法在美团工程师中的实践
为什么出现这个故障?
为什么...
存在问题
综上所述,这个线上故障总共暴露出如下一些问题:
Code Review机制流于形式
测试覆盖不够全面
......
后续TODO
填写说明
从事前预防、及早发现、快速定位、举一反三等角度,认真思考改进措施,明确需要采取的行动、负责人、时间计划
改进事项应避免空洞无物,符合SMART原则,明确、具体、可执行、可衡量、有确切完成时间
改进事项完成情况包括: TODO 、DOING、DONE、CANCEL
改进事项完成情况请及时更新,周会统一回顾之前CaseStudy的改进情况
序号 | action | 预计完成时间 | 完成情况 | 负责人 | 备注 |
---|---|---|---|---|---|
1 | code review | YY-MM-DD | TODO | xxxx | |
2 | |||||
3 | |||||
4 |
上一篇: Git 命令设计解析
下一篇: 5whys分析法在美团工程师中的实践