Lv1から始めるWebサービスのインフラ構築

Lv1から始める Webサービスのインフラ構築 2014-09-09 AWS Cloud Storage & DB Day 株式会社マイネット伊藤祐策

自己紹介名前伊藤祐策勤務先株式会社マイネット肩書アーキテクト事業内容スマートフォン向けゲームの開発・運営お仕事内容・自社ゲームタイトルのサーバーインフラ構築・アプリケーション開発・主にサーバーサイド設計（特にDB設計！）

自己紹介大好きなAWSサービスは？ 1位.Amazon DynamoDB 2位.Amazon S3 3位.Amazon CloudFront

自己紹介まあでも青いアイコンのサービスはだいたい大好きです。

今日のお話はこんな人におすすめ Webサービスを作ってスタートアップしたい人ユーザー数1人から100万人までをAWSで！

もくじ第一部 Lv1から始めるWebサービス第二部スケーラブルな構成にするには？第三部 DynamoDBの正しい使い方

第一部 Lv1から始めるWebサービス

シナリオあなたはとあるWeb系会社のエンジニアです。ある日、社長が突然こんなことを言い出しました。「我が社もソーシャルゲーム事業に参入するぞ！」一瞬目眩がしましたが、あなたは覚悟を決めてシステム設計を開始しました・・・。 ※このシナリオは全てフィクションです

シナリオサービスリリースまでのステップ 1. アプリケーション開発 2. 社内アルファテスト（ユーザー数１０人） 3. ベータテスト（同５００人～？？？） 4. 正式オープン（同１万人～？？？）

シナリオ先輩社員の助言によりAWSを採用することは決定しましたが、あなたはAWSは全くの未経験でした。そこでまずはAWSのアカウントを取るところから始めることにしました。【最初の目標】アルファテスト用の環境を構築する

Step1 アカウント取得 AWSアカウントを取得する ★ここがポイント必ず２アカウント用意しよう！・本番環境用アカウント・開発環境用アカウント（兼試験環境）テストや訓練に費用を惜しまないこと！

Step2 IAM IAMで子アカウントを作成するグループは以下の２種類を作る・AWSコンソールにアクセスする「人間ユーザー」 → Administratorテンプレートをそのまま使う・アプリケーションユーザー → 必要最低限のアクセス権限だけを付与する ※IAMを作ったらrootアカウントは封印しましょう

Step3 VPC VPCを構築するサブネットとゲートウェイを作成して関連付ける ★ここがポイント・サブネットは適切に切る（後述）・"Auto-Assign Pulibc IP"をONにする → EIPを使う数を節約できる

Step3 VPC サブネットはこんな分割方法がオススメ 10.1.0.0/17 ← まずは半分をAZ-aに 10.1.128.0/18 ← 残りを半分をAZ-cに 10.1.192.0/19 ← さらもう半分をAZ-a に領域を使いきってしまうとあとで困る！

Step4 セキュリティグループセキュリティーグループを構築するサーバーの役割種別ごとにセキュリティーグループを１個作る。【例】・Webサーバー外部から80番、443番。内部から22番。・RDS(MySQL)サーバー内部から3306番。

Step5 EC2 EC2インスタンスを作成する ★ここがポイント・配置先AZに気をつけて！ → リザーブドインスタンスを買う時に困る → たまにインスタンスタイプが枯渇する ※AWSの営業の人に相談しよう・セットアップが完了したらAMIをとっておこう！

Step6 EIP EIPを取得する外部に公開するインスタンスのENIにアタッチする。 ★ここがポイント・EIP取得数の制限に注意！（申請で解除可能）・インスタンスタイプ別にも関連付け可能数の制限がある

Step6 EIP 必要なEIPはいくつ？ 1個目一般公開サイト用 2個目運営管理サイト用 3個目メール配信サーバー用 4個目SSHゲートウェイサーバー用だいたい4個もあれば十分なのです！

Step7 Route53 Route53でゾーン設定をする取得したEIPをホスト名登録する ★ここがポイント・メール送信するときはSPFの設定を忘れずに！・さらにEIPに対するメール送信制限解除申請も必要なので一緒に済ませておこう！

システム構成図(Lv1) t2.micro 約2,000 円/月 PHP MySQL

シナリオアプリケーションも完成に近づき、いよいよ一般ユーザーへサービスを公開することにしました。しかし先輩社員はこんなことを言いだしました。「この構成でインスタンスタイプ上げるだけじゃダメなの？」

問題この構成のままインスタンスタイプを上げるだけでは商用環境としてダメな理由を答えなさい。

解答データの保全性が確保されていないから。

Webサービスとはサービスアプリケーション＝＋データ Webサービスは「生き物」です！

保全性について「アプリケーション」は subversionやgithub等にマスターがあるので保全性が確保されている。

保全性について一方「データ」はEC2のEBS上にあるのである日突然失われる可能性がある。データが消失→ サービス終了！

商用環境の最低ライン「隕石が直撃しても大丈夫」データセンターが１つ壊滅してもサービスを復旧できること。

システム構成図(商用Lv1) 約10,000円/月 db.m1.small db.m1.small t2.small Multi-AZ 配置 EIP AMI 同期

システム構成図(商用Lv2) 約13,000円/月 db.m1.small db.m1.small t2.small ログ出力 Multi-AZ 配置 EIP AMI S3 ELB 同期

ちょっと隕石当ててみましょうデータセンター隕石

システム構成図(隕石直撃前) db.m1.small db.m1.small t2.small ログ出力 Multi-AZ 配置 EIP AMI S3 ELB 同期

システム構成図(AZ壊滅後) db.m1.small db.m1.small t2.small ログ出力 Multi-AZ 配置 EIP AMI S3 ELB 同期

問題以下のAWSストレージ系サービスうち、デフォルトでデータの保全性が確保されているものはどれか？ S3 EBS DynamoDB RDS Multi-AZ ElastiCache

解答以下のAWSストレージ系サービスうち、デフォルトでデータの保全性が確保されているものはどれか？ S3 EBS DynamoDB RDS Multi-AZ ElastiCache

まとめ「大事なデータ」は保全性が確保されているストレージサービスに保存しましょう。データさえ生き残っていればサービスは何度でも蘇ります！

この式は見覚えありますよね？ MTBF MTBF + MTTR A = A .......... 可用性 MTBF ... 平均故障間隔 MTTR ... 平均復旧間隔

まずはMTTRを∞にしない保証を作ること・・・というお話でした。 MTBF MTBF + MTTR A = コレの件 A .......... 可用性 MTBF ... 平均故障間隔 MTTR ... 平均復旧間隔

質問タイム 2分ほど休憩

第二部スケーラブルな構成にするには？

シナリオ保全性の確保された構成の構築方法はわかったのですが、この「商用Lv2」の構成ではベータテストの負荷には耐えられそうにありません。しかし、ベータテストでは何人のユーザーが押し寄せるのか全く検討もつきません。【次の目標】想定以上の負荷が来てもすぐに対応できる環境を構築する

用語おさらい「スケーラブル」とは？ 1. 増大する負荷に容易に対応できる 2. 負荷に合わせて自動的に拡張される

用語おさらい「スケーラブル」とは？ 1. 増大する負荷に容易に対応できる ↑こっちの話をします 2. 負荷に合わせて自動的に拡張される ↑これはややこしいのでまた今度...

用語おさらいスケールアップノードの性能を上げること＝インスタンスタイプを上げることスケールアウトノードの数を増やすこと＝インスタンスを追加すること

理想パターン・EC2インスタンスを追加すると全体性能があがる。・RDSのリードレプリカを増やすと全体性能があがる。・DynamoDBの性能予約を買い足すと全体性能があがる。

将来が不安なパターン・インスタンスタイプを上げると全体性能があがる。・EBSのIO性能を上げると全体性能があがる。 → コスト効率が悪くなる → 性能拡張に上限がある

つまりこういうことスケールアウトできる形にするスケールアップで全体性能があがるのは当たり前！

スケーラブルな構成（基本形） EC2 EC2 EC2 マスターDB リードレプリカ ELB

スケーラブルな構成（基本形） EC2 EC2 EC2 DB書き込み負荷スケールアップマスターDB リードレプリカ ELB CPU負荷 DB読み込み負荷スケールアウトスケールアウト

サーバー負荷の傾向と対策ボトルネックになるのはいつだってデータベース負荷＼もう限界／マスターDB

各種ストレージサービス解説 Amazon RDS フルマネージドリレーショナルDB Amazon DynamoDB フルマネージドKVS型分散DB Amazon ElastiCache ただのキャッシュサーバ

Amazon RDS ここがすごい！・メンテナンスフリー！自動的に定期バックアップ AZ間でレプリケーション※Multi-AZ配置時・リードレプリカをボタン１発で作成！読み込み性能を簡単スケーリング

Amazon RDS ここは注意！・一度起動すると止められない稼働停止＝データ削除 EC2のように休止ができない・スケールアップ時にアクセス不可になるだいたい１０分～３０分くらいメンテナンスモード必須

リレーショナルDB特有の問題マスターDBへの負荷はどうあがいてもボトルネックになる。書き込み処理が激しいアプリケーションではいずれ限界が・・・。 ...しかしそこへ救世主が登場！

Amazon DynamoDB ここがすごい！・メンテナンスフリー！・すごい耐障害性※3箇所以上に分散保存・性能予約課金・動的な性能調整が可能・負荷による性能劣化を起さない

Amazon DynamoDB Amazon DynamoDBはマスターDBへの書き込み負荷がヤバい時の救世主！？

Amazon DynamoDB ここは注意！・一貫性のあるバックアップを動的にとれない「一貫性」か「動的」のどちらかを諦める・性能上限に達すると一時的にアクセス不可になるちょっと余裕を持って予約する必要がある・単純な機能しかない集計とかは無理です

Amazon DynamoDB どう使うか？負荷分散のための補助データベースとして使う NoSQL初心者にはこちらがオススメ。メインデータベースとして使う鬼門。死ヲ覚悟セヨ。（※第三部で解説）

Amazon ElastiCache ここがすごい！・とにかく速い ※中身はただのMemcachedです。 ※でも最近Redisも対応しました！

Amazon ElastiCache どう使うか？・大事なデータの格納はNG ・ストレージの読み込み負荷を軽減させるためのキャッシュとして使う

まとめスケールアウト可能な構成をがんばって構築しましょう。しかし、それでもいつかはマスター DBの負荷が限界にくることでしょう。

質問タイム 2分ほど休憩

第三部 DynamoDBの正しい使い方

シナリオ無事リリースされたサービスは幸運にも大ヒットし、ユーザー数を急速に伸ばしていきました。しかしマスターDBの負荷は増大し、インスタンスタイプを db.r3.8xlargeまで上げたのにも関わらず性能の限界が来てしまいました。そこであなたが決断した最後の手段とは・・・。【次の目標】 DynamoDBを使ってピンチを乗り切る

Amazon DynamoDBとは何か・分散データベースである。・Key Value Storeである。・NoSQLである。・スキーマレスである。・フルマネージド型サービスである。

Amazon DynamoDBの特徴・ハッシュキーを基に負荷が分散される。・読込性能、書込性能それぞれの予約した性能量に対して課金される。・１レコードは64kBまで格納可能。 ※キー名も容量に含まれるので注意

使い方別難易度【Easy】ユーザー単位で独立しているデータだけを DynamoDBに移行して補助的に使う。【Nightmare】全てのデータをDynamoDBに載せてメインデータベースとして使う。RDSは補助データベースとして使う。

テーブル設計の勘所 ★ここがポイントテーブル設計はプライマリーキーの設計が命

プライマリキー設計プライマリキーの仕様・プライマリキーの形式は２種類から選べる 1. ハッシュキーのみ 2. ハッシュキー＋レンジキー・処理の分散はハッシュキーによって行われる・レンジキーでのみ範囲検索が可能

プライマリキー設計設計例1 ユーザー固有情報 HashKey : ユーザーID RangeKey : なし・アカウント情報・プロフィール情報

プライマリキー設計設計例2 ユーザーの対ユーザー関係 HashKey : ユーザーID RangeKey : 対象ユーザーID ・フォロー・ブロック

プライマリキー設計設計例3 ユーザーの行動履歴 HashKey : ユーザーID RangeKey : ログID ・ゲーム内アイテムの購入・攻撃コマンドの実行・etc

ログIDの作り方・ログの発生時刻から文字列で生成する。・乱数も混ぜるといいかも。・万が一衝突したらもう一度トライ。例："2014090916301234" ※桁数は固定しましょう

プライマリキー設計設計例4 ユーザーの所有オブジェクト HashKey : ユーザーID RangeKey : オブジェクトID ・所有カード・投稿記事 ※オブジェクトIDはログIDと同じ方法で生成

プライマリキー設計設計例5 ユーザー間関係情報 HashKey : ユーザーID+対象ユーザーID RangeKey : なし・フレンド ※ユーザーIDは小さい方を先にする

シナリオマスターDBへ一番書き込んでいたのは実はユーザーの行動履歴でした。そこで、ユーザー行動履歴をDynamoDBに移行させたところ、大幅に書き込み負荷が減って無事ピンチをのりきりました。めでたしめでたし。おしまい ※面倒くさいのでここでシナリオは打ち切りです

鬼門の入口ここからはNightmareモードです。

リレーショナルDBの限界レコード同士の整合性を保証する代償として、複数のノード上で処理を分散できないという制約を受けている。整合性の保証

分散データベースの特徴レコード同士の整合性を解消し、複数のノードで処理を分担できるようにしたのが分散DB。整合性の解消

整合性保証を失うということ要するに「トランザクション」が使えなくなる

トランザクションが使えないということ同時に２つ以上のレコードを整合性をたもったまま更新することができない

トランザクションがないとこうなる 100ゴールドする薬草を買います。所持金1,000 G 薬草0 個

トランザクションがないとこうなる所持金を-100 します。所持金900 G 薬草0 個 -100

トランザクションがないとこうなる薬草を+1 します。所持金900 G 薬草1 個+1

トランザクションがないとこうなる・・・がしかし、通信障害が発生して更新に失敗してしまいました。所持金900 G 薬草0 個+1

もし整合性保証があれば・・・ロールバックしてしまえば所持金も元に戻るのでユーザーの被害はない。つまり、 ALL or Nothingが保証されている

ではどうするのか？アプリケーション側でトランザクションを実装するそりゃ鬼門と言われても仕方がないですね

トランザクションの構図(RDBMS) アプリケーショントランザクションテーブルテーブルテーブル MySQL

トランザクションの構図(DynamoDB) アプリケーショントランザクションテーブルテーブルテーブル DynamoDB DynamoDB DynamoDB

トランザクションの作り方・更新処理の開始から完了までを１つのトランザクションと捉える。・各レコードの更新には楽観的ロックを用いる。・全ての更新処理に冪等性を持たせる。・処理の途中で失敗したら最初からやりなおす。・結果が収束するまで何度もやりなおす。

用語解説楽観的ロック【意味】読み込んだレコードを更新するとき、他の並行プロセスによって変更がされていないことを期待して更新をする方式。並列性を高めるためにとても重要な概念

用語解説 CAS操作【意味】Compare and Swapの略。更新対象のレコードの状態が期待した状態のときのみ更新を実行し、そうでない場合は何もしない操作。楽観的ロックに必要な概念

CAS操作をSQLで表すと UPDATE user SET status=1,updated_at=NOW() WHERE id=100 AND status=0 ※初期状態はstatus=0とする。

用語解説冪等性【意味】ある操作を1回行っても複数回行っても結果が同じであること。整合性を確保するためにとても重要な概念

冪等性のある処理の作り方処理済？ CASで更新完了開始更新失敗読込更新成功 NO YES

冪等性のある処理の作り方冪等性の確保された処理はいくつ連結しても冪等性を保てる。 function() ✔ function() function() function() ✔

実装例更新依頼書 ID:123 所持金: -100 薬草: +1 所持金 1,000G 薬草 0個レコードを準備

実装例更新依頼書 ID:123 所持金: -100 薬草: +1 所持金 900G -100 ID:123 薬草 0個所持金を更新

実装例更新依頼書 ID:123 所持金: -100 薬草: +1 所持金 900G ID:123 薬草 1個 +1 ID:123 薬草の数を更新

実装例更新依頼書 ID:123 所持金: -100 薬草: +1 状態：完了所持金 900G ID:123 薬草 1個 ID:123 完了済みにする

実装例更新依頼書 ID:123 所持金: -100 薬草: +1 状態：完了所持金 900G 薬草 1個掃除して完了

SQSと組み合わせて使う 1. 依頼書をレコードとして作る 2. SQSへ依頼書IDが書かれたメッセージを発行 3. バックグラウンドでSQSからメッセージを受け取り、結果が収束するまで何度も実行する。

全体フローチャート開始依頼書作成キュー発行完了開始冪等処理冪等処理完了エラー発生エラー発生

ロールバック処理更新依頼書 ID:123 所持金: -100 薬草: +1 所持金 1,000G 薬草 0個レコードを準備

別の並行処理が邪魔をする所持金 1,000G ロールバック処理更新依頼書 ID:123 所持金: -100 薬草: +1 薬草 99個 +99

ロールバック処理更新依頼書 ID:123 所持金: -100 薬草: +1 所持金 900G -100 ID:123 薬草 99個所持金を更新

ロールバック処理更新依頼書 ID:123 所持金: -100 薬草: +1 所持金 900G ID:123 薬草 99個 +1 上限エラー薬草の数を更新

ロールバック処理失敗済みにする更新依頼書 ID:123 所持金: -100 薬草: +1 状態：失敗所持金 900G ID:123 薬草 99個

ロールバック処理更新依頼書 ID:123 所持金: -100 薬草: +1 状態：失敗所持金 1,000G +100 薬草 99個所持金を戻す

ロールバック処理薬草の数も一応処理更新依頼書 ID:123 所持金: -100 薬草: +1 状態：失敗所持金 1,000G 薬草 99個

ロールバック処理完了（状態収束）更新依頼書 ID:123 所持金: -100 薬草: +1 状態：失敗所持金 1,000G 薬草 99個

まとめ分散DBをメインDBとして使う場合、トランザクションの再実装をしなければいけないので大変。しっかりフレームワークを組んでから挑むことを強く推奨。

質問タイムお疲れ様でした

Lv1から始めるWebサービスのインフラ構築

by 祐策祐策 , プログラマー at マイネット･ジャパン

on Sep 09, 2014

Statistics

Views

Actions

0 Embeds 0

Accessibility

Categories

Upload Details

Usage Rights

Report content