关于 2022-04-24 的服务器故障

GeekNote 在 2022-04-24 ~ 2022-04-25 期间遇到了两个服务器机房的故障,分别是:

  • 机房资源被耗尽(链接
  • 储存卷磁盘损坏(链接

恰好这段时间我身边没有电脑,要跨越时差和服务器技术支持沟通,导致这个问题解决花了很长时间。期间用户不是看到 Cloudflare 的 500 错误页,就是 Rails 默认的 500 错误页。如果没有 follow 我个人 Twitter(@chloerei),可能会以为网站跑路了。

为了改进错误提示,我做了以下事情:

  • 建立错误报告页面,地址:https://geeknote.statuspage.io/
  • 改进了 500 错误页面的内容,显示错误报告页面的链接,以便获取修复的进展。
  • 打开 Cloudflare 的 always online 功能,在服务器完全不可访问的时候显示高访问量页面的缓存。

虽然这些措施并不能解决单点故障的问题(需要钱,多机房部署),但希望改进遇到错误时的用户体验,至少知道问题正在处理。

对于故障期间受影响的用户表示歉意。

2
2
avatar
@GeekNote
GeekNote 使用技巧、功能更新等。
@Rei
Ruby 程序员,Ruby China 管理员,GeekNote 创建者。
加入