2012-07-03 ファーストサーバに振り回された夜

今日の時点では「借りていたレンタルサーバが飛んでデータ全滅した」とか言えば
「ファーストサーバの事件に巻き込まれた」と言わずとも、ネットに精通している人であれば
「ああ、かわいそうに、あれに巻き込まれたのね。」って言ってくれるよね。
あるいは、現時点であれから2週間ほど経っているし
えっ、何に巻き込まれたの?ああ、ファーストなんとか?なんだったっけ?
という時期にきているかもしれない、そのほうが好都合だが。
どんな事件だったか書かなくても済むならば簡単だ、日記にしちゃおう。
私個人のウェブサイトが巻き込まれたわけじゃないんだけど
身近なところで巻き込まれた人が出た、というか私も巻き込まれたのでその時の話。
あの事件に巻き込まれた人の話を聞いてメシウマになりたいのならば読んでほしい。
あとは、後から技術的な検証をする人が見て参考になれば良いかなと思う(障害時にpingが通ってた件とか)
2012/6/20 6:30pm (ぐらい) ファーストサーバから電話があった
実は被害にあった数千社のうち、うちだけかもしれないが、ファーストサーバから電話がかかってきた。
(この時点でいきなりファーストサーバの中の人に特定されそう)
実はその電話に直接出たわけではないが、電話にでた人いわく
- サーバがトラブってウェブとメールが使用不可
- 復旧のめどがたっていない
- サーバが復旧するまでサポートセンターは開けたままにする
上記のようなことをいわれたそうだ。
復旧の目処とかは、向こうから話したことではなくてこちらから聞き出した情報かもしれないが。
それにしても、復旧見込みなしとは衝撃的なワードを聞いたものだ。
念のため、手元のPCでHPを開いてみると
「Google Chrome では ******.jp に接続できませんでした」
あー 落ちている。やっちまったみたいだ。
2012/6/20 6:40pm 足掻いてみた
おもむろにコマンドプロンプトを開き
ping ******.jp を入力。
すると、サーバからpingが帰ってきた。
なんだ、サーバは生きてるじゃないか。
一安心した。 *1
そのあと、telnetで110番ポートなんかにもつないでみたら、ログインバナーが出たかどうかこそ記憶にないが
一応ポートは開いていて、つながった。
connection refusedになるのは80番、443番のHTTP、HTTPS・・・
ping応答が帰ってくるということは、きっと、サーバのOSは生きていて
データは無事、Apacheがなんか起き上がらないのだと思い込んだ。
なお、この契約していたファーストサーバのサーバはウェブサーバとしてのみ使用していて
メールは利用していなかったので、POPアカウント等ひとつも登録しておらず、ポートがつながったからといって
メールが使えるかどうかは試せていない。
たぶん後の状況とファーストサーバからの電話の内容からして死んでいたのだろう。
2012/6/20 7:30pm まだ見られない
復旧の目処がたたないとは言われていたが、仮にもSLA100%をうたっているのだし
すぐに復旧するだろうと思って、繋がらないHPのリロードを続けていた。
むしろ、この時点では、ちょっとした事件になりつつあるよな、と思い始めた。
まあ、結果はお察しの通りの大事件になるのだが。
2012/6/20 8:00pm ファーストサーバのHPもクラッシュしていた
そのウェブサイトが入っているサーバは、ファーストサーバの専用サーバで
エンタープライズ3シリーズというのを使っていた。
専用サーバ、つまりは自分しか被害を受けていないのだろうと思っていたので
ファーストサーバのウェブサイトをチェックなんて思っていなかった。
専用サーバだけどroot権限はなし、自分たちでどうこうできる問題じゃないし
ファーストサーバの中の人がどうにかしてくれるのを待つしかない。
なんとなしに、SLAのことを書いたページを探そうと思って
なんかのワードでGoogle検索して出てきたのが、ファーストサーバのサポートのページだったのだが
クリックすると、
support.fsv.jpにつながらない。
えっ
たまたま?
2012/6/20 8:30pm ちょっと規模のでかい障害だと気付く
ファーストサーバのトップページにちっちゃく障害情報が出ていることに気付く。
これより後(深夜2時)の魚拓があるが、このようにでっかく告知されているわけではなく
赤枠ではあるものの、もっとちっちゃく出ていたような気がした
http://megalodon.jp/2012-0622-0247-20/www.fsv.jp/
この表示を見て、
やばくね?
あのとき聞いた、復旧の目処がたたないという言葉が脳裏をよぎる。
2012/6/20 9:40pm まだ復旧しない
SLA100%保証のページを見ていて、いくら返金されるんだろうと計算をはじめる。
稼働率100%保証 - ファーストサーバ
稼働率=(当月の総時間−障害時間)÷当月の総時間 ※小数点第3位以下は切り捨て
と書いてあったので、たぶん、きっとこう。
当月の総時間 | 24時間×30日(6月なので)=720 |
障害時間 | 6時からと仮定して4時間 |
ちなみにたしか、この時点のファーストサーバ公式発表は5時50分だったか、5時45分頃だったか、それぐらいから障害ということになっていた。
今は5時30分となっているね。
Excelで
=rounddown((720-4)/720,3)
とか入れてパーセントスタイルにしてヌホホホホとかいって遊んでいた。(式があっているかどうかは不明)
この時点で99.4%、25%返金というわけだ。
ちなみに50%返金のレベルに到達するには、15時間落ちていないといけない計算になる。
繰り返すが、この時点ではデータ消滅というワードはどこにも出てきておらず
ただの平日の夜にちょっとサーバが応答不能になっているだけというレベルだとおもっていたからこそ
こんなにのんきにやっていたのだけど。
2012/6/20 10:00pm Twitterで騒ぎになっていることを知る
Twitterでファーストサーバで検索すると似たような被害にあっている人が多数。
仕事のメールが送れないだとか、サーバが直るまで待機していないといけないので徹夜が決定しそうだとか
さすがは企業や官公庁のお客さんが多いサーバと言われているだけあって、それなりにツイートの内容も
そこらへん格安レンタルサーバが落ちたときと方向性が違う。*2
ここいらで、そろそろGIGAZINEあたりが食いついてくるのではないかという期待をしてみたりもした。
ただタレコミまではせず。
ちなみに、記憶にある限りGIGAZINEは確か大阪府に編集部があって、ファーストサーバも大阪の会社だ。
ちょっとほとぼりが冷めた頃に突撃取材してくれるのではないかと少し期待している。
2012/6/20 11:00pm 絶望的
先のpingはかえってくるという事象から、サーバのhttpサービスか
ファイアウォール機器の故障とかではないかと思っていたが、だとしたらそろそろあがってきてもおかしくないはずで
実はデータが危ないのではないかと思い始める。
就寝。*3
2012/6/21 5:00amごろ 起きる
寝惚け眼でiPhoneをロック解除、落ちてるウェブサイトのアドレスをSafariで見ると
「サーバに接続できません」ではなくて「ただいまメンテナンス中です」が表示された。
※再現イメージ HTMLはホンモノ
最高に嫌な予感がした。
ファーストサーバのサポートのページを見ると
2012/6/21 03:30 弊社メンテナンス作業において用いる特定の管理プログラムにバグがあり、お客様データが消失したことが判明いたしました。
(ノ∀`)アチャー
コンフィグレータを開いてみると、デフォルトのパスワードでログインでき
おそるおそるFTPアカウント一覧を見てみると真っ白。
初期状態じゃねーーーーーーーーか!
不貞寝した。
夢だ夢だ夢だ夢だ夢だ夢だ夢だ夢だ夢だ
2012/6/21 7:00amごろ 起きる
起きて、しばらくして、もう一度あのメンテナンス中ページを眺め
一息ついて、ファーストサーバに電話した。
とはいっても、Twitterで散々サポートがつながらないと騒がれている中、サポートセンターに電話したわけではない。
営業さんに電話した。
多分出ないだろうなーと思いながら、電話した。
出た。
「徹夜ですか」
「はい」
サポートのページでは復旧作業中とか書いてあったので、今の状態でサーバのコンフィグレータをいじると
まずいことが起こったりするのだろうかと思い、そこらあたりを質問。(その情報も公開されていなかった)
復旧データを既存WWW公開フォルダに上書きする予定はないということだったので、復旧作業をすることにした。
サイボウズやらEC CUBEをバリバリ使い倒しているわけではなくて、静的HTMLのみで構成されたウェブサイトで
幸いにもPCから再アップロードすれば復旧は可能という状態だったので、なんとかなった。
とにかく早く復旧させないと、Googleのクローラが「メンテナンス中です」を拾ってしまったら
ページランクが下がっちまうのではないかと気が気じゃなかった。
2012/6/21 9:00amごろ 右往左往するTwitter民、Facebook民
データ全滅を知って怒り狂ったり、途方に暮れたり、復旧作業に勤しんだりしているTwitter民を眺めつつ復旧作業。
特にファーストサーバのFacebookページは、実名でファーストサーバ叩きをしている人たちでごったがえしており
その様子は地獄絵図そのもの。
ファーストサーバに抗議することで、自分たちの会社は被害に遭っているのであって
消して自分たちの不手際ではないのだと主張するかのようだった。
Twitterのまとめや、2ちゃんねるのファーストサーバスレに挙げられた
被害に遭ったサイト一覧とかもできていて、これはいよいよ大変なことになってしまったと思ったが
GIGAZINEはおろか、ITmediaでも速報が出ていない。まだ9時だし、そんなもんか。
さて、先ほど「夢だ夢だ夢だ」と言っておきながら、復旧は簡単だった。
最近はやりのCMSも導入せず、データベースを使ったサイトでもなく、ただの昔ながらの
静的HTMLコンテンツしかないサイトだったので、PCからアップロードするだけ。
だがしかしここで問題発生。
ファーストサーバはバーチャルドメインの設定でドメインの追加を自分で行うことができない。
これはファーストサーバにやってもらわないといけない。
自分でできるのは、ファーストサーバにドメインを追加してもらったあとに
追加されたドメインにアクセスがあったとき、どのディレクトリのコンテンツを
見せるのか割り振るという設定しかできない。
XREAとかの格安レンタルサーバではまずありえない仕様(全部自分でできる)だが、ファーストサーバはそういう仕様だ。
そして今回は、その設定も初期設定に戻ってしまっていて
最初にサーバを契約したときに「基本ドメイン」といって1つドメインを申込書に記載するのだが
そのドメインだけが表示されている状態だったので、まずはこちらの割り当てフォルダを設定した。
1つのサーバで複数サイトを運営していたので、これらを復旧させるのに時間がかかった。
やっぱり管理画面が半人力頼り(というか、サーバ会社便り)のレンタルサーバだといけないね。
2012/6/21 5:00pmごろ RECOVERD_FILESフォルダの存在
この時間帯に、ftp接続したらRECOVERD_FILESというフォルダが見えた。
もうコンテンツはアップロードしなおしたので、必要のないデータといえばそうなのだが
フォルダ構成とかをざっと見た限りでは、最初にファーストサーバにコンテンツをアップロードするときに
テストで作っていたフォルダとかが見えて、ああ、懐かしいという感じ。
ファイルの中身まではみていないが、ちゃんと復旧できているような雰囲気だった。
2012/6/21 10:00pmごろ ftpが再び死ぬ
Twitterで「ファーストサーバ」を検索していたら、ftpが繋がらなくなったというつぶやきがちらほらと。
試しに自分もつないでみたら、見事にftpのポートが落ちていた。
また、やらかしたのかと思った。
幸いにもPOP3とFTPが落ちているだけで、HTTPは正常に動いていたのでよしとした。
最終的に
上の症状も、翌朝までにFTPが復活。
FTPが落ちたのは、障害ではなくてRECOVERD_FILESに他人のデータが混ざっている疑惑が浮上して
利用者がローカルPCに、その他人のデータをダウンロードしてしまうのを防ぐために強制的にサービス停止させたのだろう。
あれから、エンタープライズ3・シリーズ31でバックアップディスクの交換だとかで一時的にサービス停止があったようだが
目立ってまた障害をやらかしたとか、そういうことはなかったようなので一安心。
特に今回はファーストサーバをウェブサーバとしてしか使っておらず、メールは影響がなかったことと
静的なウェブサイトだったのでアップロードしなおすだけで復旧できたことが幸いした。
なお、迅速に復旧できたためか、知名度がそれほど高くないのか、各所に掲載されている
ファーストサーバの被害に遭ったサイト一覧の類には掲載されていない。
本当はもっといえば、コンテンツはすべて手元にあったわけだから
代替コンテンツを自分で用意した別のサーバにアップロードして
DNSの書き換えをすれば、万事解決、あわよくばそのままファーストサーバとも
おさらばできるわけだ。
でも、こんなに長引くとは思わなかったのでその決断が遅れた。
SLA100%を過信しすぎたかな、とも思う。Amazon EC2ですら99.95%だというのに。
報道の遅れ
それにしても、最終的には2日遅れぐらいでITmediaが速報としてファーストサーバ障害の一報を報じたときは
思わず笑ってしまった。
ファーストサーバで大規模なデータ障害 顧客データが消失
http://www.itmedia.co.jp/enterprise/articles/1206/22/news064.html
遅いよと。
むしろ、もう一度クラッシュしてしまったのかと一瞬驚いたぐらい。
ソフトバンクの株主総会が終わるまで待っていたのか?
ファーストサーバがマイナーすぎてネタの仕入れが遅れたのか?
上記ITmediaの記事が出た頃から、一斉に各メディアが報道しはじめて
最終的にはNHKや日経経済新聞で特集記事が組まれるほどにまで発展した。
ファーストサーバ障害、深刻化する大規模「データ消失」
ヤフー子会社、クラウド時代の盲点を露呈(ネット事件簿)
http://www.nikkei.com/article/DGXNASFK2600L_W2A620C1000000/
私のケースのように、早期に復旧できたところはまだよかったけども
復旧しなかったところは、顧客からのクレームの電話とかでも
最初の2日ぐらい「ファーストサーバのせいで」とも言えなかっただろうし
とてもつらい思いをしたと思う。
せめて報道が大々的に行われて、
インターネットで大変なことが起こっていると、世間一般に認知されさえすれば。
2ちゃんねるで噂が飛び交っているが、この件でファーストサーバを契約していた会社のIT担当者が
自殺したとか言う話もあるし、実際EC CUBEとかの顧客データや受注データが雲隠れしてしまったところでは
会社の倒産ということも余裕が起こりうるであろう。
最初、タレコミなんてしなくてもすぐに嗅ぎつけるだろうとたかをくくっていたのだが
意外に報道が遅いということに気付かされた一件でした。
ちゃんちゃん。
追記
昨日半分寝ぼけながら書いたこの記事がちょっとアクセス数多い感じなんで
日本語おかしいところとかちょっと直そうとおもう。で、なおした。
*1: 終わってみればお察しくださいなのだが、データ完全死亡だった。なぜpingは帰ってきたんだろう。ロードバランサ?まさか。
*2: 実は個人的にXREAのサーバで1週間ぐらい止まったままというのを経験しているが、そのとき比で
*3: 余談だが、その後、午前3時半頃にポート80が復活した。