Travis CI 网站在 4 月 3 日发生了一起数据库删库导致的 outage,细节:https://blog.travis-ci.com/2018-04-03-incident-post-mortem
Root cause 如下:
根据现在流行的 devops 理念,不应该区分生产数据库和测试数据库,在生产环境跑测试也应该针对的是生产数据库,不知道大家有什么看法?
附加: 数据恢复后,一些用户发现登录到其他用户的账号,原因是登录的 token 存在浏览器的 local storage,数据恢复后关联到了错误的用户 record,疑似是用 id 关联,且加密 token 的 key 并没有过期时间。