微信被盗14小时,反思运维团队的应急响应管理

哈喽,Everyone~

没错,我被盗号了。

相当懵逼的一次被盗号,所有绑定信息全部发生了变更。与微信绑定的手机号、QQ、邮箱无一幸免,甚至连支付密码也难逃那只看不见的魔爪。

一切发生的都是那么突然。

14小时前,凌晨:我和平时一样,进行着睡前文章阅读。没有天空惊雷,没有夜幕乌啼,没有任何异象。安静躺在床上等待着美好的明天,陷入梦乡。

早8:00,起床,习惯性的摸手机看一下早报,映入朦胧睡眼的不是熟悉的消息列表。微信处于登录界面,而非已登录状态。

不加思索,输入着记忆中的密码,第一次登录失败。可能是按错了吧,毕竟密码有大小写,稍微清醒一下再次输入,第二次登录失败。开始怀疑自己,这密码不可能错啊,第三次输入,第三次失败。

换一种登录方式吧,手机验证码登录,输入手机号,并清醒的确认,没有输错,按照短信提示输入了信息,账号或密码错误!

什么情况?

使用QQ登录,账号或密码错误!使用邮箱登录,账号或密码错误!

彻底清醒,我,被!盗!号!了!

8:26,开始找回密码,按照微信提供的找回密码途径,尝试了第1和第2种方式,得到的信息反馈是账号不存在。

按照第3种方式找回,可以进入邮箱根据链接进行密码重置,但提交后得到的反馈信息是由于安全原因,微信号暂时不能通过邮箱改密,请尝试申诉找回。

8:49,开始意识到并确认自己的微信所绑定的手机号、QQ号失效,邮箱是否失效尚不确认。只能使用申诉找回的第4种方式。

在进行第4种方式之前,为了避免造成更大的损失,我选择了先冻结账号。

在冻结账号时,因手机号与QQ号失效,邮箱尚不确认,唯一可以使用的是根据微信号进行冻结,这个微信号是在微信注册时仅能修改一次的唯一标识码。

幸运的是,这个修改的机会我早就浪费掉了,这也是我仅存的一个唯一标识。

9:13,开始申诉找回。梦魇1开始,无论我怎样提交,都会失败。因为在发送信息后根本无法获得任何回执。

自助找回无果尝试下客服电话吧。梦魇2开始,打了1个多小时的电话始终无法接入任何人工渠道,问候你的永远是早已录制好的声音,让你去按123。

10:45,使用手机号注册了新的微信号,居然注册成功?进一步验证了我的猜想,以前绑定的手机号在微信用户信息数据库中不存在了。

新的微信号可以使用客服自助小程序进行申诉,神奇的一幕出现了,申诉可以进入到获取回执环节。我选择了通过好友验证,发送验证信息到原微信号上。

但大部分好友都无法发送验证信息,因为好友关系已被盗号方删除。只有少部分人能够发送信息且能发送信息的好友>2,此时收到一条短信:微信号已成功通过申诉找回密码,新密码XXX,为了账号安全,请重新登录微信并绑定可用的手机号。

11:45,戏剧性的一幕再次上演,可以使用邮箱修改密码,但无法登录。微信号处于手机自助冻结状态。需要进行解冻处理,看来自己挖的坑还需要自己填上。

12:55,持续了1个多小时的梦魇3开启,无法解冻。无论我进行何种操作,始终无法解冻账号,我必须使用微信绑定的手机号进行短信验证,但原微信号绑定手机号已经发生变更,陷入死循环。

13:20,快要绝望的我,只能再次选择申诉。一个证明“我就是我”的过程,提交了历史所有绑定信息,但无法核实实名认证信息,缺少相关入口。

14:35,焦急的等待,除了等待申诉结果,无法进行任何有效操作。

14:39,收到短信回执,已解冻。

14:40,登陆账号,查看损失状况。社群等群聊仍在,报平安。分组标签丢失,分组好友消失,剩余好友209人。经济损失0,微信绑定信息全无(手机号、QQ、邮箱),提示重置支付密码。

14:42,重新绑定手机号,重置支付密码,QQ与邮箱暂时无法进行绑定。账号已找回,安全隐患未知,事故发生原因未知,处理过程未知。


开始反思:

1)作为一名用户,所有处理过程均由用户本人发起申请,整个响应过程历经14小时。

前期处理过程类似于检索数据库验证并返回结果信息。整个过程未收到任何运维方主动响应事件的任何反馈信息。

且,在用户发现问题前,未收到任何告警信息或账号状态异常的监控信息反馈。

SLA应该处于较低的层级,如果我是马XX或张XX,此次事件的处理过程可能不会如此漫长。

2)事件闭环管理。发起的三个事件:申诉找回、紧急冻结、账号解冻3个申请是相互独立的事件,需要分别进行闭环处理。

But,所有事件的处理过程,信息不透明,节点不清晰,流程不了解,反馈不及时。

3)自助知识库构建的解决方案无法应对所有问题,甚至知识库本身存在Bug。

知识库可以满足部分事件的响应,通过自动、自助手段避免人力成本增加,但当知识库无法满足事件响应时,应及时进行事件升级并介入人工干预。

知识库需要持续更新,随着版本、功能将解决方案一并更新,并持续保持优化。

4)客服人工坐席需要设立且保持在线状态,否则影响用户体验。

客服坐席的设立不是摆设,从某种程度上来讲,代表了组织对客户服务的一种能力和承诺,其专业程度也侧面反映了组织所承载的服务水平。

人工坐席是一种形象,一颗救命稻草,而非声音好听的“小姐姐”。

5)自动化运维 > 自助化运维

虽然自动化运维需要在IT架构上增加一系列的软硬件设施,投入相当大的成本。但从用户的角度出发,若能在第一时间知晓自身应用的状态与异常监控,便可进行降损处理,及时响应事件。

若运维人员能够第一时间捕捉异常信息,定位问题发生位置及原因,并采取有效措施,便可成为用户最坚实的堡垒,增加用户体验的满意度与信任感。

自动化工具与利益双方的有效结合,可以很大程度上规避巨大影响事件的发生,监控、告警、及时干预可以将一些可能的重大事件进行早期的扼杀。

不可能不存在问题与异常,当这些发生时,最短时间内的响应处理才能避免更大的损失,最及时有效的响应处理才能稳住用户。

6)当问题或异常发生时,用户需要的是反馈而非等待。

等待是熬人的,熬掉了满意度、信任感,甚至是产生怀疑。反馈是正向作用的,可以让用户清楚的知道事件处理过程的节点、流程和结果。

即便反馈的信息是失败、无法处理,也好过用户的独自等待。

7)事件报告 > 处理结果

事件报告是对整个事件的分析,包括:原因、处理过程、节点 & 流程、结果以及整个事件的处理记录,根据事件报告可以避免再次出现类似事件,或者当类似事件发生时可以在更短时间、更加有效的去处理。

信息透明相当重要,对用户、对运维人员、对服务提供方都是相当重要的。将家丑外扬至包含这几个角色的“家庭”里,没有任何问题是处理不掉的。

没有任何感情色彩的、冷冰冰的结果对谁都一种伤害,尤其是用户本身。

———— / End / ————

至始至终,我也不知道究竟是何种原因导致了此次事件。

更不知道此次事件是如何处理的,大致推测是将账号信息回滚至一个状态,更无法推测如何避免此次事件再次发生。

虽未见过你,但有我陪你。一个属于PM自己的研习港湾,不会让你孤寂~

微信被盗,你怎么看?

................................

我是Mark社长,一个爱吃肉、爱撸猫的老年PM~

PM们下期见~

你可能感兴趣的:(微信被盗14小时,反思运维团队的应急响应管理)