自宅サーバー障害ポストモーテム20181023

【障害内容】

https://inamuu.com/, https://wiki.inamuu.com/ にアクセスすると、504 Gateway Timeoutが表示されて、サイトへアクセスできない。

【障害日時】

2018.10.23.火 20:30 ~ 22:13

【復旧方法】 

電源投入により、通常起動を確認。

【障害原因】

子供がサーバーの電源を誤って押したため。

【時系列】

20:30 WordPressのプラグインであるJetpackによるサイトの監視で、サイトへアクセスできないメールを受け取る。ただし、仕事により気が付かず。
21:00 メールにてサイトへアクセスできないことが判明。対象サイトへアクセスするも、2サイトとも504 Gateway Timeoutであることを確認。なお、サイトの前段にはリバースプロキシとしてnginxのコンテナを稼働させているが、エラー画面がnginxのエラーではなかったので、Dockerプロセス自体が停止していると推測。
21:30 奥さんへLINEにて、本日停電がなかったか確認するも、特に無いとの報告をうける。
22:10 帰宅後、サーバーの電源LEDが点灯していないことを確認。電源ボタンを押下し、起動を確認。
22:13 サイトが閲覧できること、およびJetpackモニターより復旧のメールを受信。
22:15 サーバーへSSHできることを確認し、調査を開始したところ、子供より誤ってサーバーの電源を押下したことを聞き、原因と判断。messagesやsar,dfでも特に問題が見受けられないことから、調査を終了した。

【実施済みの対策】

子供への注意喚起と報告があったことについて褒めた。
奥さんへのサーバーの電源の位置、およびLEDの点灯がサーバー起動状態であることを共有。

【今後の対策】

サーバーの電源ボタンカバーを検討。
サーバーの配置変更を検討。
RaspberryPiによるk8s化を検討。
Jetpack通知をSlack化、または監視をMackerel移行。


なんかそれっぽくポストモーテムを雑に書いた。というか単なる障害報告だな、これは笑
息子から緑に光るから気になって電源を押してしまったという報告を受けたのは流石に吹いてしまった笑
今の家は宅内配線がなく、リビングのテレビ台の脇に光の配線がきているので、必然的に一番家族がいる場所にサーバーやらネットワーク機器をおいている。
今回はそのせいで発生してしまっと言っても過言ではない。
しかし、息子がちゃんと報告してくれたのでモヤモヤせずに済んだし、注意喚起はしたが、報告してくれたことは褒めた。
間違ったことをしてしまった場合にはちゃんと謝らなければいけないということをわかってくれているので、それはとても安心した。※ちなみに息子は3歳。

自宅にサーバーなんて置くなよとも思うかもしれないが、非エンジニアだった頃、インフラエンジニアになりたくてノートPCで自学習のために自宅サーバーを運用しはじめたのもあり、筐体の世代は交代はしつつも思いが深いのもあってまぁユルリと運用できれば良いかなと思っている。(ノートPCは連続稼働に向かないことを知り、タワー型へ移行した)
Twitterだったかどこかで見たけど、自宅サーバーは盆栽だなんて言うし、多分そうなんだと思う。盆栽知らんけど。

今の筐体は小型で、1コアだけどメモリ8GBで十分だし、何も問題が無い。筐体のサイトから調べて、月々の電気代も900円くらいというのがわかっているので、同じスペックのVPSを同じ値段で探すのは難しいと思っている。
RaspberryPi複数台でk8s構築して運用しても面白いかなと思いつつ、またいずれかな、と。
いつ筐体が死んでも大丈夫なようにバックアップも日次7世代取得しているので、筐体死んだらどこかに移す予定。
それまではなんとか頑張りたい。