redhu's net blog home

知行合一

女王节期间出现了气泡系统场景量减少的事故,导致了女王节期间大量的场景气泡弹不出来。 说来羞愧,去年年底刚发生一波,今年开年这么快又来了。 经历了上次年货节事故,虽然大家在发生这次事故后对紧迫性有所提升。但也还是体现蛮多问题。

1、出现问题后没有体现出该有的凝聚力,战斗意识不强,比较懒散。 开发同事发现了问题,把自己的代码改完,发给测试同事,没继续跟进这个事情,过一段时间去问测试同事结果,发现测试并没有开始这个工作(因为他在处理其他不紧急的事情,或许测试并不知道这件事情的紧急性)。比较好的做法是,负责人知道事故以后第一时间就要组织大家开个动员会,第一要大家意识上紧张起来;第二做好作战部署,安排好分工。对于跨部门的合作的,一定要树立一个项目第一负责人(这个人本身也要有极强的责任心),否则出现问题后就会一盘散沙,没有一点凝聚力。做事不慌不忙,贻误战机。

2、要快速根据情况果断做出决策,犹豫不决会导致处理问题周期变长。 活动高峰瞬间即逝,快速做出正确的决策会节省宝贵的时间,这是非常必要的。我们有所犹豫,主要是对各种情况的权衡没法分清主次,瞻前顾后。例如在大促期间,出现了事故,要决定是否能通过降低一点用户体验的方案弥补起来。当然做出这个决策就要权衡用户体验的影响面和收入的影响,要综合对比一下得出结果。如果开发人员没法决策,要迅速给上级打电话,让上级决策。无论谁来决策,作为项目负责人一定要推进这个决策快速完成。

3、需要提升关键数据的分析能力和预测能力。 开发和测试人员一定要在平时就积累出大量的数据印象,不要什么数据都在需要的时候再去查一查,不一定要十分准确但起码要知道一个大概。当然这也需要我们技术人员对数据有一定的敏感度,知道要关注哪些数据。而且要不断根据业务的变化,不断地积累新的数据。举个例子:原来是7天互斥,那我们关心7天活跃数。那现在变为2天或者3天互斥,那我们的数据模型就要变为2天或者3天的用户活跃数。我们在十点通投正常的量是每十分钟50万,如果现在只有十万,数据敏感的人会一眼就看出有问题的。

4、并行处理多个问题,不要把问题串行一个个来,这样会浪费大量时间。 我们针对问题做出的处理,有时候要经过老大们审批的。一定不要做完开发再走审批,一定要在技术做的同时,就把审批的流程做了。 我们排查问题的代码,如果执行排查一个需要一个时间周期,那么就要几个问题同时执行,这样能加快排查问题的速度。 对于插件这种下发以后不能马上体现出结果的,我们也要在下发过程中对可能会出现的结果在脑袋里面有所演练,把可能出现的问题的解决方案先过一下。

5、保持冷静。我在测试同事后面待了一下,发现他满头大汗、非常着急,同样的测试案例跑了一遍又一遍,但貌似也没法分期出什么结论。对于事故造成的后果,在处理过程中不要过多去想,主要围绕怎么处理事故来想办法。甚至这次事故的原因,如果暂时对于解决问题没有帮助,也不要急于去分析,当然,责备的话也不要在这个时候去说。

2019年3月7日