データ分析基盤を支える技術
このトークは現在'保留'状態です
もしあなたが「これは是非YAPCで見たい!」と思ったら、ソーシャルメディアボタンを押して応援してみてください。選考の際に参考にさせていただきます
Tweetトーク概要
データ分析の話はそこかしこで行われてますが,それを俯瞰する話はあまりないようなので,ここらで一つ色々とまとめて喋りたいと思います.また,Treasure Dataで得た経験をもとに,機能だけでなくデータ分析基盤でよく要求される要素についても,いくつかの視点を交えて言及したいと思います. 話したいトピックリスト.
- データ分析の需要
- データ分析の流れ
- データ分析基盤に使われるソフトウェア
- オンプレミス: Hadoop, Spark, Presto, Impala, etc
- クラウド: Treasure Data, BigQuery, Redshift, etc
- データ収集/同期: Fluentd, Embulk, Sqoop, etc
- ストリーム処理系: Storm, Dataflow, etc
- データパイプライン/ワークフロー: Luigi, Oozie, Airflow, etc
- 機械学習: Hivemall, Spark MLlib, etc
- データ分析基盤をどう構築するか
- データ分析基盤の今後
各ソフトウェアは実装とかまで深く掘り下げず,概要や使い所・比較が中心になります.ただ,Hadoopなどは未だ誤解があったりするので,必要なソフトウェアに関しては,いくつかアドヴァンスドなトピックを入れる予定です.
トーク詳細
会場 | TBD |
---|---|
開始時間 | TBD |
カテゴリ | インフラ・運用 |
言語 | 日本語 |
スライド字幕 | 英語 |
時間 | 60 分 |
想定観客層 | レギュラー |
写真撮影 | 許可 |
ビデオ撮影 | 許可 |