この記事は「本番環境でやらかしちゃった人 Advent Calendar 2019 - Qiita」の13日の記事です。
気軽な気持で登録したらカレンダーTwitterでバズリ、出てくる記事もみんな面白いので、「おいおいおいおい、俺はなんてものに登録してしまったんだ」と反省している深夜21時です。みんな文豪か?
というわけで、こんにちは。godanです。
これは本当にくだらないミスで本番を消した人間の悲しい15分を思い出しながら書いた記事です。皆様にあたっては穏便に他山の石にしていただけると幸いです。叩かれたり炎上したりしないよう気をつけていますが、なにかあれば教えていただけると幸いです。
結論。
- 本番には削除保護フラグを立てておこう
- Webコンソールで横着して複数作業するのはやめておこう
- サーバー名は誤解しないようにしておこう
ここから以下ポエムです。
背景。
某月某日
普段リモートワークが多いチームということもあってチームではオフラインで集まって普段あまり手を付けないことをみんなでやる日を設けています。 その中でCVE脆弱性検査や定期的なAWSの棚卸しをしており、サーバーで設定は問題ないかや開発サーバーでいらないものがないかの確認作業を行っていました。
自分が居たところは複数プロジェクトがあり、その中のWordpressで運用されているものが存在していました。規模は大きくなくAWSのt2.small一台で運用され基本的にはWordpressのアップデートなどが問題なく自動で行われていれば特にやることがないものでした。
その棚卸しのタイミングで件のWordpressサーバーをt3.smallにして置こうという話になりました。 既存のWordpressが動いているインスタンスのAMIを取ってそれをもとに新しいインスタンスを建てるだけな単純作業です。
ついでに、すでに使われていないサーバーが数台あったのでAWSで作業するときに消すことにしました。
某日。
意気揚々と既存のインスタンスのAMIを取り始めました。 AMIはインスタンスが稼働したまま取ることができます。 AMIの取得時間はものにはよるでしょうが5分から10分ほどでしょうか。対処のサーバーにチェックを入れて取得が終わるまでそれなりに時間が空きます。待ってる間についでに頼まれていたサーバーも消してしまおうとチェックを入れてサーバーの終了を行いました。
特に詰まることのない作業ですが、悲劇はすでに始まっていたのです…
異変。
その時何が起きたのか。
今回の問題はAMI取得とサーバー削除を立て続けに行ったことでした。
AMI取得のモーダルが出て取得を開始した後に対象のWordPressサーバーの チェックは外れていませんでした 。
その後立て続けにサーバーの終了を行ったため対象のWordPressサーバーも終了の処理が走りはじめました。
気が抜けていたのか削除時の確認のモーダルを確認せずクリックしたことが諸悪の原因でした。
つながらなくなる本番。水が上から下に流れるように。叩きつけたガラスが割れるように。終了処理が始まったサーバーは止まりません。
希望。
サーバーの終了処理は走り続けていていましたが、同時にAMIの取得も走り続けていています。
サーバーが消えたらAMIも失敗しそうなものですが、走り続けていていました。その取得中のステータスは輝いているように見えます。
取得が終わるのが先か、サーバーの終了が先か。謎の祈りがそこにはありました。
時計の針の音すら聞こえる静けさで混乱する中ただただステータスが変わる待ち続けます。およそその時間10分ほど人生の中で1位2位を争うほど長く感じました。
終了処理とAMI取得が終わったのはほぼ同時でした。
緑色に光るステータスの文字はもはや神の微笑みのように見えました。逸る気持ちを抑えながらインスタンスを起動してすると問題なく起動時のチェックをこなしていきます。
本当に問題がないのか接続確認をして本番を復旧させました。
その後上司に詫びメッセージを書きこの日はメンタルがやられ仕事を早々に切り上げ自宅へと帰りました。
終わりに。
完全に不注意の泣きたくなるくらい単純なミスですが、今後の戒めのために書いておこう今回のAdventCalendarに書かせていただきました。
思い出しながら書いてる時点で悲しくなってきたので、アンジュの過去配信のアーカイブを見て元気をだそうと思います。
明日の本番環境でやらかしちゃった人 Advent Calendar 2019は418statusさんです。
引き続き年末に向けて頑張っていきましょう。