バックアップのあり方を変える新技術
2007/10/26
重複データ排除
- - PR -
データ量が年率60%以上で伸び続けているということを、この連載の冒頭で紹介したが、伸びているデータの中身の大半はメールとファイル(オフィス系ドキュメント)である。これは読者も身の回りの状況を見て実感するところであろう。メールとドキュメントは重複する部分が非常に多く、重複は平均して1つ当たり50カ所になっているともいわれる。
メールを例にしよう。何人かに同じ内容を「to」や「cc」で同報することは、メールの便利な利用方法の1つとして広く行われている。このとき、同報されたこの1通のメールは同じデータであるにもかかわらず、メールサーバ上の個人のメールボックスとして見た場合はそれぞれが異なるデータとなる。そのためすべてのデータがバックアップとして保管される。さらに、同報されたメールに添付ファイルがあり、それを各人がファイルサーバ上のホームディレクトリに保存したとすると、これらの添付ファイルは同じデータであるにもかかわらずパス名が違うので、バックアップソフトからは別データとして取り扱われる(つまり、それぞれがバックアップされる)。
また、ドキュメントについては、ファイルとして異なるデータであっても部分的に同じデータが含まれるというのはよくあることだ。何らかのドキュメントを作成する際に、既存資料を一切使用せずに新規に作成するケースはゼロではないだろうが、大抵の場合、テンプレートを利用したり、類似のドキュメントをコピーしてひな型として利用したりして、ドキュメント作成効率を上げる工夫はしているだろう。あるいは万一のファイルの破損に備え、ファイルをコピーしたうえで編集を行うということも広く行われている。このような場合、複数のドキュメントファイルに部分的に同じデータが含まれることになるが、従来のバックアップソフトはファイル内容が違うということですべてをバックアップする。
このような方法でも従来は問題なく処理できていたが、メールやドキュメントファイルの増加と1件当たりのデータサイズの増加、それによって引き起こされるコスト増と時間消費が許容できなくなりつつあるというのが現在の状況である。
重複データ排除はこういった状況に対する解決策として登場し、利用が広まりつつある新技術である。
図3 重複データ排除では同一の情報を持つデータブロックを2度バックアップしない |
図にあるように重複データ排除機能がない従来のバックアップソフトでは、異なるファイルとして認識するためにすべてのデータをバックアップしてしまう。一方、重複データ排除機能があるバックアップソフトでは、基になるファイルのデータと別ファイルの変更部分のデータのみが保持されため、バックアップ先のデータ容量を大幅に削減しコストダウンを実現することが可能だ。また、重複データ排除の際に、重複の有無をバックアップクライアント側で判断する方式の場合、重複しているデータはバックアップサーバに送信しないためネットワーク上でのデータ転送量も削減される。これは遠隔地のバックアップにも都合が良い。
重複データ排除機能はハッシュ値を管理することで実現されている。ハッシュ値とは、あるデータ列に対してそのデータ内容を代表する値をいう。ハッシュ値を生成するハッシュ関数は、1)似たデータ列から似たハッシュ値が生成されない、2)異なるデータ列から同じハッシュ値が生成されない(コリジョンが起きない)という性格をもつように設計されている。数kB〜数MBのデータ列から数百ビットのハッシュ値を生成して使用することが多い。
重複データ排除機能は、このハッシュ値を比較することで実現している。ファイルをある単位で区切り、そのデータ列のハッシュ値を計算し、すでにバックアップ済のデータ列のハッシュ値と比較することで重複の有無を判断する。ハッシュ値の特性としてコリジョンは起こらないが(理論上は起こり得るが現実的には無視し得る頻度)、コリジョン発生の場合には異なるデータ内容をリストアしてしまうということなので、コリジョン対策として別の比較方法も併用される。
この機能は、ハッシュ関数の計算や一致するハッシュ値の有無の検索などの処理が、CPU性能の向上により高速化したことで利用可能となった。
負荷分散
複数のバックアップサーバを使用してバックアップを行っている環境で有効な新技術が負荷分散機能である。バックアップサーバが複数台になると、どの業務サーバをどのバックアップサーバで処理するかというジョブアサイン/ジョブスケジュールの設計が必要になる。業務サーバのデータ量の増加がバックアップサーバの処理能力を超えるほどになったり、業務サーバごとの更新量のばらつきが大きくなったりする場合、当初の設計どおりのジョブアサインが最適でなくなってしまうこともある。また、バックアップサーバを新規で追加した場合に、既存のジョブ設計をすべて変更する必要が出てしまう。
バックアップの負荷分散機能はこのような状況を解決するための機能である。バックアップサーバにバックアップ用ストレージやテープライブラリ装置を接続し、どのバックアップジョブも同じように実行できるように準備しておく。バックアップジョブを実行する際には最も負荷の低いバックアップサーバを介してバックアップを実行することができる。これによりバックアップジョブの再設計や、前のジョブが何らかの理由で想定時間以内に終了しなかったような場合でも空いているバックアップサーバを利用してジョブを実行することが可能だ。
以上、バックアップ技術の最近の進展とサーババックアップへの活用について紹介した。次回は災害対策としてのバックアップや、遠隔拠点のバックアップについて触れる予定である。
シマンテック グローバルコンサルティングサービス ジャパン ソリューションサービス部 マネージャ。
国内系製品開発メーカーにて、コンピュータ開発支援装置の開発などの製品開発を担当する傍ら、海外関連事業にも携わり、その後国内系SI会社において、関連会社であるデータセンター事業者が提供するデータセンターおよびストレージサービス、オンライン証券システム、デジタルコンテンツ販売システムなど、100以上のシステムの設計、構築、サービスインを担当。また、自社のISMS取得やプライバシーマーク取得プロジェクトにも参画した。
2005年にベリタスソフトウェアに入社し、合併に伴うシマンテックへの移籍後、金融、製造、製薬業界のバックアップのソリューションの刷新、災害復旧(ディザスタリカバリ)やアーカイブシステムの構築を担当。現在は、コンサルティングサービスのソリューションサービス部のマネージャとして、ソリューションの構築に関するコンサルティングを担当している。
後藤 博之(ごとう ひろゆき)
シマンテック グローバルコンサルティングサービス ジャパン ソリューションサービス部コンサルタント。
データの保護・保全に関するテクノロジーは進化を続け、バックアップ手法の選択肢が広がってきている。今回はバックアップの可能性を広げる新技術を紹介する。
アプリケーションやOSを停止せずにバックアップする「無停止バックアップ」は、いまや当然のことになりつつある。スナップショットについてはリンク情報ではなく完全なデータとしてのコピーを作成する「フルイメージスナップショット」も可能になった。Exchange Serverのリストアは、個別アイテム単位で行えるようになった。
「連続データ保護」はバックアップ時間もリストア時間も短縮できる技術だ。また、重複データを1度しかバックアップしない「重複データ排除」の技術は、バックアップ媒体の容量節約につながるとともに、遠隔バックアップの運用コスト低減につながる。大規模なバックアップでは、バックアップサーバを複数設置し、負荷分散を行うこともできるようになった。
Page 1 |
|
Page 2 個別アイテムのリストア 連続データ保護(CDP) |
|
Page 3 |
いまどきのサーババックアップ戦略入門 バックナンバー 連載インデックスへ»
- 第1回 サーババックアップ戦略を左右する基本要素
- 第2回 サーババックアップに関するいまどきの選択肢
- 第3回 バックアップのあり方を変える新技術
|
|
|
スポンサーからのお知らせ
内部統制のためのアイデンティティ管理 落とし穴に落ちないための2つの「統制」 New! |
“情シス部門”の悩みを解決するには? 成長企業に求められる新たなIT基盤を探る New! |
ソフトウェア開発における「テスト技法」 への投資が、価値を生み出す理由とは? |
何のために、どんなログを採取するのか、 「ログ管理」の目的は明確ですか? |
<IT全般統制>性能トラブルを未然に防ぐ キャパシティ管理とは? |
SOAで実現する「ITガバナンス」―SOA化の メリットはシステム開発・運用体制の統制 |
オフィス環境&地球環境にやさしい 「ウルトラ・シンクライアント」って? |
|
- 三菱東京UFJ銀行、RFID技術を活用した文書持ち出し監視システムを導入
- 社内PCセキュリティ管理のアウトソーシングサービス、NTTPCコミュニケーションズ
- 日清製粉グループ、会計業務効率化へ向け多次元集計検索エンジン導入
- 広島市、重要情報管理のためVista&Office 2007を3300台導入へ
- 携帯電話サイト向けのアクセス解析ソリューションをリリース、オムニチュア
- ウォルマート、SAPの財務ソリューションを世界規模で導入へ
- 全社規模での導入を支援するSOAコンサルティングサービスを提供開始、日本BEA
- 山梨県市町村、地域住民に電子申請ASPサービス・公共施設予約ASPサービスを提供へ
- 日本インキ、EPMソリューションを導入して連結決算向け新システムを本番稼働
- 東京海上日動フィナンシャル生命保険、ASPで本格的コールセンターシステムを実現
- 嘉悦大学、OSSの活用でソフトウェア購入費ゼロで情報基盤を再構築