Azure Data Factory初心者に向けた基本情報のまとめです。
詳細が気になる方は、個別の記事をご覧いただけたら幸いです。
Azure Data Factoryとは
Azure Data Factoryとは、データを運んだり、運ぶ過程で加工をしたりするツール。
いわゆるETLツールです。
複雑なプログラムが書けない人でもETL処理を作成できるローコード開発ツールですが、まとまった書籍やネット情報が少ないのがネック。
ただし、英語が堪能な人なら、得られる情報が飛躍的に増えるため非常に有利です。
英語が苦手な人がgoogle検索に頼るときは、「文字検索 → 画像検索 → 動画」の順で調べるのがおすすめ。
Azure Data Factoryの役割
Azure Data Factoryの役割は、データを運んで1ヶ所にまとめ、分析しやすくすることです。
バラバラだったデータをまとめることで現状を正しく把握できたり、
「売上データと顧客データを合わせて分析してみよう」など、新たな分析が可能になったりします。
Azure Data Factoryは、「運んで → 集めて → 分析して → 経営に活かす」という流れの中の一部であり、単体ではあまり意味がありません。
Azure Data Factoryの基本4要素
Azure Data Factoryの役割は、「データを運んだり加工したりする」でした。
それが自動でできるような仕掛け(ETL処理)を作成するのが、Azure Data Factoryを使う人間の役割です。
Azure Data FactoryにおけるETL処理は主に4つの要素で成り立っています。
- データをどこから持ってくるか
- データをどこへ持っていくか
- データをどのように持っていくか
- データをいつ持っていくか
どんなに複雑な処理であっても、この基本は変わりません。
基本4要素を念頭に置いたうえで、「何がしたいのか、何を求められているのか」をしっかりと考え、作成する処理の設計図を事前に描いておくことが成功への近道です。
Azure Data FactoryでETL処理を作成する手順
前述の基本4要素には、正式名称がついています。
- データをどこから持ってくるか(スタート地点の設定):dataset
- データをどこへ持っていくか(ゴール地点の設定):dataset
- データをどのように持っていくか(ルートの設定):dataflow
- データをいつ持っていくか(スタートの合図):pipeline・trigger
datasetはスタート側とゴール側の2つが必要になります。
つまり、作るパーツは最低5つです。
「基本4要素」を「最低5パーツ」、1~4の順番で作っていくことが、Azure Data FactoryにおけるETL処理の作成です。
まとめ
実際にETL処理を作る前段の情報を、4つの記事にしました。
今回はそのまとめです。
詳細が気になる方は、個別の記事を是非ご覧ください。
今後は、具体的なETL処理の作成について記事にしていきます。
コメント