Azure Data FactoryでETL処理を作ってみる

Azure data factoryでETL処理を作ってみる Azure Data Factory

Azure Data Factoryで人間がやるべきこと

  • データの運搬や加工が自動でできるような仕掛け(ETL処理)を作ること
  • ETL処理の作成とは、4つの基本要素を順番に作っていく作業
  • 作り始める前に設計図を描いておく(要件定義)

これはこちらの記事でも書いています。

Azure Data Factoryで基本となる4つの要素
①Azure Data FactoryでETL処理を作成する際に基本となる4つの要素 ②作成手順の基本 ③要件定義の重要性

4つの基本要素と正式名称

ETL処理の4つの要素

Azure Data FactoryにおけるETL処理の4つの要素

ETL処理の4つの要素(正式名称)

Azure Data FactoryにおけるETL処理の4つの要素(正式名称)

datasetは、スタート側とゴール側の2つが必要となります。

つまり、「基本4要素」を「最低5パーツ」作成する必要があるのです。

正式名称の読み方

  1. dataset(データセット)
  2. dataflow(データフロー)
  3. pipeline(パイプライン)
  4. trigger(トリガー)

これらを、1→2→3→4 の順番で作成していきます。

ETL処理作成時の作業の比重

作成作業の大変さで言うと、単純な処理を作成しているうちは、dataflowの比重が高いです。

dataflow >>>>> dataset・pipeline・trigger

複雑な処理を作成するようになると、pipelineの比重が上がってきます。

dataflow > pipeline >>>>> dataset・trigger

時間がないときはdatasetだけを作っておいて、dataflowはまとまった時間が取れるときに作るなど、少しずつ進めることも可能です。

Azure Data Factoryの作成画面

実際のAzure Data Factoryの画面を見ていきます。

Home画面

こちらがHome画面です。

左上に5つのメニューアイコンが並んでいます。

Azure Data Factory_HOME_English

5つのアイコンがありますが、普段メインで使うのは2つです。

Azure Data Factory_Author(ETL処理の作成や編集)

【Author】ETL処理を作成する

Azure Data Factory_monitor(ETL処理の進行状況等を確認)

【Monitor】ETL処理の動きを確認する

Author画面(作成・編集)

こちらがAuthor画面です。

ETL処理を新規で作成したり、作成済みの処理を修正したりするときに使います。

右側の広い余白部分が処理作成スペースです。

Azure Data Factory_Author(ETL処理の作成・編集画面)

左上に、ETL処理のパーツ(pipeline・dataset・dataflow)を格納する場所があります。

Azure Data Factory_pipeline・dataset・dataflowの格納場所

右側の数字は、それぞれのパーツの数です。

今はまだ何も作成していないため、すべて0になっています。

※Power Queryは一旦無視して大丈夫です。

※triggerはまた別の場所に格納されます。

Monitor画面(作成した処理の動きを確認)

こちらがMonitor画面です。

処理を動かしているときに、どのくらい進んでいるか、成功か失敗か、などを確認できます。

今は何も動かしていない状態ですが、実際に処理を動かしているときは、余白部分に進行状況が表示されます。

Azure Data Factory_monitor(ETL処理の進行状況等を確認)

まとめ

  • Azure Data FactoryにおけるETL処理の基本4要素(5パーツ)
正式名称読み役割
datasetデータセットスタートとゴールを設定する(2つ必要)
dataflowデータフローデータを運ぶルートや、加工の有無などを設定する
pipelineパイプラインスタートの合図を設定する
triggerトリガースタートの合図を出す
  • 始めのうちは、dataflowの作成が作業のメインになってくる
  • Azure Data Factoryには5つのメニューがあるが、普段メインで使うのはAuthorとMonitorのみ
PAGE TOP
タイトルとURLをコピーしました