第六十五章 系统的问题 (第3/3页)
待统计。
然后是根本原因分析,用的五个为什么方法:
为什么服务崩了?用户量超出设计上限。
为什么用户量超出上限?社交媒体病毒式传播,增长超出预测。
为什么超出了没有预警?没有设监控阈值。
为什么没有设监控阈值?上线流程里没有。
为什么上线流程里没有?我们还没有正式的上线流程清单。
最后是改进清单,监控阈值、压测标准、上线流程清单、架构扩容方案,每条后面跟着负责人和截止日期。
他从头翻到尾,通篇没有出现他的名字——不,出现了,架构扩容方案负责人。
旁边赵磊一直在敲代码,中间去接了次水,路过他工位看了一眼,没打招呼。
看完文档,陈建业又坐了一会,然后他站起来,往韩路一工位走过去。
韩路一面前的两块屏幕,一边是代码,一边是飞书文档。
“韩总。”
“老陈啊,”韩路一抬头看到陈建业,“孩子好点了吗?”
陈建业一愣。
他走过来之前想了很多种开场——道歉、解释、主动认错。他没想到第一句话是问孩子。
“退烧了。”
“那就好。”韩路一的语气跟闲聊差不多,顺着就切进了工作,“昨天下午用户暴涨,把后台冲垮了。我们做了紧急处理,现在系统是临时方案。现在用户量还在涨,得赶紧重新设计一下,我正在写复盘文档,等写完了你看一下,做一下参考,再出一版设计给我。”
陈建业坐在椅子上,没接话。
他不知道说什么。
他在鼎盛干了十多年,见过太多次事故复盘了,每次复盘会都只做一件事,就是甩锅。先找是谁的锅,再定处罚,最后写一份没人看的改进方案。
“韩总……你不开除我吗?”
韩路一看着他,表情严肃了下来。
“我昨天看过了,你做的架构能支持两千同时在线,昨天一下涌进来三万新注册用户,这是谁都没想到的。”
韩路一停了一下。
“老陈,你记住,人都会犯错,所有的线上事故,都是系统流程的问题,不是人的问题。”
『加入书签,方便阅读』