「さくらのクラウド」で続いていたストレージ障害、報告書をさくらインターネットが公開

2012年6月25日

昨年11月にさくらインターネットが開始したクラウドサービスさくらのクラウド」は、開始直後の12月からストレージまわりにトラブルが発生し、ストレージ性能の著しい低下や不安定な動作、一部データの消失などが起きていました。トラブルは完全に解決してはおらず、3月に新規申し込みの受付を停止したまま現在に至っていました。

さくらインターネットは今日15時に、さくらのクラウドのストレージ障害についての詳細な報告「さくらのクラウド・ストレージに関する報告書」を公開するとともに、トラブルが発生していたストレージに代えて自社開発したストレージでの再スタートを発表しました。

接続の問題や性能問題、監視ツールの問題などが発生

トラブルは同社が採用したストレージ装置で発生したものが中心でした。サーバとストレージ間はInfinibandで接続され、IP over InfiniBandでTCP/IPプロトコルを用い、その上でNFSを利用する構成になっています。

以下、8ページにわたる報告書の概要です。

ストレージ装置とサーバ間の接続が切れる

12月より発生した最初のトラブルで、ストレージ側のポートをICMPで監視。ところがこの監視機構が異常が発生していない状態でも異常状態と認識して、ストレージのポートを予備系へ切り替る動作を行うことがあり、そのたびに切り替えに要する数分のあいだストレージの動作が途切れる。

12月20日頃に、監視方法をリンクステートに切り替えることで解決。

この現象とは別に、InfiniBand上でストレージのポートが消失する問題が発生。設置を変更して1月初旬に解決。

ストレージの性能上の問題

1月初旬より、ユーザーごとにひも付いたファイルシステムがストレージ内で増加すると、コマンドラインからの操作が極端に遅くなる事象が発生。設定変更や不要なファイルシステムの削除など、あらゆる操作に大きな時間がかかるようになる。

コマンドラインからの操作だけでなく、ストレージのクローン機能やスナップショット機能などの動作も遅くなった。

ファイルの誤削除

前述のファイルシステムの増加により性能が劣化するのを改善するため、1月5日に行った緊急メンテナンス作業において、さくらインターネットが作成したバッチコマンドに不備があり、稼働中のディスクの一部を削除してしまった。

ストレージ性能の上限の問題

2月以降データの読み書きが頻繁になると、ストレージ性能の上限に近づいてきたが、その際に期待した処理性能より下回って限界がきてしまう。

監視ツールの問題

ストレージの状態を監視するツールが正しい値を取得、保存できない状態となり、実質上正確なトラブルシュートができず運用上の問題となってしまった。

このほか、ファイルコピー機能の動作に伴う問題なども報告書で指摘されています。

現在は主に性能上の問題への対処のために、ストレージ装置を追加導入して負荷を下げた形での運用を行っているとのこと。詳しくは、「さくらのクラウド・ストレージに関する報告書をご覧ください。

自社開発の新ストレージサービスを開始

さくらインターネットではこのストレージのトラブルを踏まえ、現在利用しているストレージに代えて同社が自社開発した新ストレージでのベータテストを、本日6月25日から開始すると、合わせて報告書で明らかにしています。

また、本日19時から開催予定の「さくらの夕べ」で、ユーザーに向けてトラブルと今後について説明するとしています(すでに定員に達しています)。

次の記事では、今回報告されたストレージのトラブルに関して同社代表取締役社長 田中邦裕氏、さくらインターネット研究所 所長 鷲北賢氏へのインタビューを行っています。あわせてお読みください。

「ストレージの事前検証が十分にできなかった」さくらインターネット田中社長、クラウドのストレージトラブルの原因について

このエントリーをはてなブックマークに追加
Bookmark this on Delicious

タグ : さくらインターネット , クラウド , ストレージ

≫次の記事
「ストレージの事前検証が十分にできなかった」さくらインターネット田中社長、クラウドのストレージトラブルの原因について
≪前の記事
jQuery 1.8β1登場。モジュール機能によるカスタマイズ、ベンダープレフィックスサポート、XSS対策など

Loading...

Blogger in Chief

photo of jniino Junichi Niino(jniino)
IT系の雑誌編集者、オンラインメディア発行人を経て独立。新しいオンラインメディアの可能性を追求しています。
詳しいプロフィール


新サイト「Publickey Topics」始めました!


Publickeyの新着情報をチェックしませんか?
Twitterで : @Publickey
RSSリーダーで : Feed





アクセスランキング - 過去7日間

  1. Amazonクラウド先週のシステム障害、原因…
  2. 「さくらのクラウド」で続いていたストレージ障…
  3. 「ストレージの事前検証が十分にできなかった」…
  4. JavaScript MVCフレームワークは…
  5. 自分のITスキルが分かる!「全国スキル調査 …
  6. グーグル製のJavaScript MVCフレ…
  7. モジラ、互換Flashプレイヤーの「Shum…
  8. さくらのクラウド、新ストレージでは性能限界テ…
  9. 「Windows Phone 8」はWind…
  10. PR: さくらの専用サーバを、西海岸のスター…
  11. jQuery 1.8β1登場。モジュール機能…
  12. プロジェクトという形態は下火になり、プロダク…
  13. アドビの新ツール「Shadow」は、モバイル…
  14. 2012年5月の人気記事「Instagram…
  15. 連載マンガ Mr. Admin:新型パソコン…

Publickey 最新記事 10本

Publickey Topics 最新記事 10本

バックナンバー



アルファブロガー・アワード2010受賞 Publickeyはアルファブロガー・アワード 2010を受賞しました! いつもご愛読ありがとうございます。









blog comments powered by Disqus