Azure Data Factoryで人間がやるべきこと
- データの運搬や加工が自動でできるような仕掛け(ETL処理)を作ること
- ETL処理の作成とは、4つの基本要素を順番に作っていく作業
- 作り始める前に設計図を描いておく(要件定義)
これはこちらの記事でも書いています。
4つの基本要素と正式名称
ETL処理の4つの要素
ETL処理の4つの要素(正式名称)
datasetは、スタート側とゴール側の2つが必要となります。
つまり、「基本4要素」を「最低5パーツ」作成する必要があるのです。
正式名称の読み方
- dataset(データセット)
- dataflow(データフロー)
- pipeline(パイプライン)
- trigger(トリガー)
これらを、1→2→3→4 の順番で作成していきます。
ETL処理作成時の作業の比重
作成作業の大変さで言うと、単純な処理を作成しているうちは、dataflowの比重が高いです。
dataflow >>>>> dataset・pipeline・trigger
複雑な処理を作成するようになると、pipelineの比重が上がってきます。
dataflow > pipeline >>>>> dataset・trigger
時間がないときはdatasetだけを作っておいて、dataflowはまとまった時間が取れるときに作るなど、少しずつ進めることも可能です。
Azure Data Factoryの作成画面
実際のAzure Data Factoryの画面を見ていきます。
Home画面
こちらがHome画面です。
左上に5つのメニューアイコンが並んでいます。
5つのアイコンがありますが、普段メインで使うのは2つです。
【Author】ETL処理を作成する
【Monitor】ETL処理の動きを確認する
Author画面(作成・編集)
こちらがAuthor画面です。
ETL処理を新規で作成したり、作成済みの処理を修正したりするときに使います。
右側の広い余白部分が処理作成スペースです。
左上に、ETL処理のパーツ(pipeline・dataset・dataflow)を格納する場所があります。
右側の数字は、それぞれのパーツの数です。
今はまだ何も作成していないため、すべて0になっています。
※Power Queryは一旦無視して大丈夫です。
※triggerはまた別の場所に格納されます。
Monitor画面(作成した処理の動きを確認)
こちらがMonitor画面です。
処理を動かしているときに、どのくらい進んでいるか、成功か失敗か、などを確認できます。
今は何も動かしていない状態ですが、実際に処理を動かしているときは、余白部分に進行状況が表示されます。
まとめ
- Azure Data FactoryにおけるETL処理の基本4要素(5パーツ)
正式名称 | 読み | 役割 |
dataset | データセット | スタートとゴールを設定する(2つ必要) |
dataflow | データフロー | データを運ぶルートや、加工の有無などを設定する |
pipeline | パイプライン | スタートの合図を設定する |
trigger | トリガー | スタートの合図を出す |
- 始めのうちは、dataflowの作成が作業のメインになってくる
- Azure Data Factoryには5つのメニューがあるが、普段メインで使うのはAuthorとMonitorのみ