关于 2022-04-24 的服务器故障

Rei
GeekNote
·

GeekNote 在 2022-04-24 ~ 2022-04-25 期间遇到了两个服务器机房的故障,分别是:

  • 机房资源被耗尽(链接
  • 储存卷磁盘损坏(链接

恰好这段时间我身边没有电脑,要跨越时差和服务器技术支持沟通,导致这个问题解决花了很长时间。期间用户不是看到 Cloudflare 的 500 错误页,就是 Rails 默认的 500 错误页。如果没有 follow 我个人 Twitter(@chloerei),可能会以为网站跑路了。

为了改进错误提示,我做了以下事情:

  • 建立错误报告页面,地址:https://geeknote.statuspage.io/
  • 改进了 500 错误页面的内容,显示错误报告页面的链接,以便获取修复的进展。
  • 打开 Cloudflare 的 always online 功能,在服务器完全不可访问的时候显示高访问量页面的缓存。

虽然这些措施并不能解决单点故障的问题(需要钱,多机房部署),但希望改进遇到错误时的用户体验,至少知道问题正在处理。

对于故障期间受影响的用户表示歉意。

2
评论
登录后评论

我就是因为这次故障去找到你的推特看情况,当时我猜,你那几天推特应该会涨一些关注吧哈哈!

社区准则 博客 联系 社区 状态
主题