Azure Data Factoryを使う人間の役割
Azure Data Factoryの主な役割は…
- バラバラに存在するデータをデータ分析基盤へと運ぶこと
- 運ぶ途中で、必要なら加工をすること
これはこちらの記事でも書いています。
データを1ヶ所にまとめることで、全体像を把握したり、広い視野で分析をしたりできるようになるのです。
データの運搬や加工が自動でできるような仕掛け(ETL処理)を作るのが、Azure Data Factoryを使う人間の役割です。
ETL処理の4つの要素
Azure Data Factoryで作成するETL処理は、主に4つの要素で成り立っています。
- データをどこから持ってくるか
- データをどこへ持っていくか
- データをどのように持っていくか
- データをいつ持っていくか
ETL処理の作成手順
Azure Data FactoryにおけるETL処理の作成とは、1→2→3→4の順でパーツを作っていく作業です。
- スタート地点を設定する
- ゴール地点を設定する
- ルートを設定する
- スタートの合図を決める
Azure Data Factoryでは、単純な処理を作ることもできれば、複雑に作り込むこともできます。
凝ろうと思えばかなり凝ったものが作れますし、何がどうなっているのか一目では分からないような大作になることもあります。
しかし、どんな複雑な処理であっても、基本となるのはこの4つの要素です。
ETL処理の作成前に設計図を用意する
実際に処理を作り始める前に、設計図を描いておくことが非常に重要です。
しっかりとした設計図が描けているかどうかで、仕上がりの品質が変わってくると言っても過言ではありません。
設計図には、ETL処理の4つの要素を漏れなく記載します。
スタート | (例)売上システム内に蓄積されているデータ |
ゴール | (例)データ分析基盤の中に用意した、売上システム用の箱 |
ルート | (例)元データの加工はせず、そのままの形で運ぶ。ただし、重複があれば削除する |
スタートの合図 | (例)毎朝7時に、前日分のデータを運び始める |
きれいに描く必要はありません。
紙でもPCでも、エクセルでもメモ帳でも、自分のやりやすい方法で構いません。
「何がしたいのか、何を求められているのか」を正しく理解し、整理しましょう。
このように、やるべきことを事前に整理して設計図を用意することを「要件定義」と言います。
頭の中で整理できるならそれでも良いですが、できれば何らかの形で書き起こしておきましょう。
処理を作成する中で「やっぱりこれは無理だな」とか「もっとこうした方がいいな」と思うことがあれば、設計図を変更しても構わないのです。
とにかく、最初の段階でしっかりとイメージをすることが大切です。
まとめ
- ETL処理には、基本となる4つの要素がある
- ETL処理の作成とは、1→2→3→4の順でパーツを作っていく作業である
- スタート地点を設定する
- ゴール地点を設定する
- ルートを設定する
- スタートの合図を決める
- 作り始める前に、設計図をしっかりと描いておくことが重要(あとで修正しても良い)