Slack 最近发了一篇事故报告 [1] 关于之前 slack 3 个小时部分用户无法登陆的事情。
看事故报告时间非常有意思的事情,可以学到很多东西,比如当事故发生如何处理,了解他们的架构,分析实际问题。
所以我根据他们的报告进行了梳理,并提出了一些想法,链接如下:
https://github.com/yfractal/blog/blob/master/blog/2022-05-03-slack-incident-reading-note.md