Azure Data FactoryのETL処理作成で基本となる４つの要素

Azure Data Factoryを使う人間の役割

Azure Data Factoryの主な役割は…

これはこちらの記事でも書いています。
データを１ヶ所にまとめることで、全体像を把握したり、広い視野で分析をしたりできるようになるのです。

データの運搬や加工が自動でできるような仕掛け（ETL処理）を作るのが、Azure Data Factoryを使う人間の役割です。

Azure Data Factoryで作成するETL処理は、主に４つの要素で成り立っています。

Azure Data FactoryにおけるETL処理の作成とは、１→２→３→４の順でパーツを作っていく作業です。

Azure Data Factoryでは、単純な処理を作ることもできれば、複雑に作り込むこともできます。
凝ろうと思えばかなり凝ったものが作れますし、何がどうなっているのか一目では分からないような大作になることもあります。

しかし、どんな複雑な処理であっても、基本となるのはこの４つの要素です。

実際に処理を作り始める前に、設計図を描いておくことが非常に重要です。

しっかりとした設計図が描けているかどうかで、仕上がりの品質が変わってくると言っても過言ではありません。

設計図には、ETL処理の４つの要素を漏れなく記載します。

スタート	（例）売上システム内に蓄積されているデータ
ゴール	（例）データ分析基盤の中に用意した、売上システム用の箱
ルート	（例）元データの加工はせず、そのままの形で運ぶ。ただし、重複があれば削除する
スタートの合図	（例）毎朝7時に、前日分のデータを運び始める

きれいに描く必要はありません。
紙でもPCでも、エクセルでもメモ帳でも、自分のやりやすい方法で構いません。

「何がしたいのか、何を求められているのか」を正しく理解し、整理しましょう。

このように、やるべきことを事前に整理して設計図を用意することを「要件定義」と言います。

頭の中で整理できるならそれでも良いですが、できれば何らかの形で書き起こしておきましょう。

処理を作成する中で「やっぱりこれは無理だな」とか「もっとこうした方がいいな」と思うことがあれば、設計図を変更しても構わないのです。
とにかく、最初の段階でしっかりとイメージをすることが大切です。

Azure Data FactoryにおけるETL処理作成の基本

ETL処理には、基本となる４つの要素がある
ETL処理の作成とは、１→２→３→４の順でパーツを作っていく作業である
1. スタート地点を設定する
2. ゴール地点を設定する
3. ルートを設定する
4. スタートの合図を決める
作り始める前に、設計図をしっかりと描いておくことが重要（あとで修正しても良い）