The 3rd Big Data Analysis Contest
- Deadline
- 2017/12/21 (80 days left)
- Number of Participants
- 2
- Prize
-
予測部門(6名)
精度賞
[金]20万円+家電10万円相当+トロフィー
[銀]20万円
[銅]10万円+家電
アイデア賞
[金]20万円+トロフィー
[銀]20万円
[銅]10万円
可視化部門(4名)
インフォグラフィック賞
[金]20万円+トロフィー
[銀]20万円
[銅]10万円×2
- Host / Sponsor
-
- Keywords:
コンテスト趣意
第3回のテーマは「電力・気象」
日本の主要なエネルギー資源である石油、石炭などの化石燃料は「限りある」資源です。一方、太陽光や風力、地熱などの再生可能エネルギー資源は環境にやさしいだけでなく、枯渇の心配がないものとして注目されています。
しかし、再生可能エネルギーの発電量は気象条件に左右されます。そのため、電力会社は常に発電量を正確に予測し、再生可能エネルギーの利用促進と電力の安定供給を実現しなければなりません。
今回、分析の対象となるのは、全国3カ所の太陽光発電の発電量及び天気予報やアメダスなどの気象データです。
本コンテストでは、これらのデータを基に、電力の安定供給・効率利用を目的とした太陽光発電の発電量予測にチャレンジしてもらいます。また新しい試みとして、ビッグデータ分析で重要な技術である「可視化」の課題も設定しました。
普段接触する機会の少ない産業界の実際の課題・データを対象に分析することにより、優秀なデータサイエンティストの発掘や優れた分析者の技術からの学びによる人材育成効果も合わせて期待します。
スケジュール
2017年10月 2日(月) コンテスト開始
2017年12月21日(木) コンテスト終了
2017年12月25日(月) 予測モデルの提出締切 ※連絡を受け取った方
2017年 2月上旬 検収・審査にて入賞者を決定
2017年 2月下旬~3月中旬 入賞者表彰
開催部門
「①予測部門」と「②可視化部門」の2部門を開催します。いずれか1部門のみでの参加も可能です。
部門 | ①予測部門 | ②可視化部門 | ||
課題 | 太陽光発電所の発電量の予測 | データの可視化を活用したストーリーテリング | ||
データ | 発電量・気象情報 | 発電量・気象情報(+独自に収集したデータ) | ||
懸賞/賞金 | 精度賞 金:賞金20万円*1+家電10万円相当*2 +トロフィー*12 銀:賞金20万円*3 銅:賞金10万円+家電*4 | アイデア賞 金:賞金20万円*5 +トロフィー*12 銀:賞金20万円*6 銅:賞金10万円*7 | インフォグラフィック賞 金:賞金20万円*8+トロフィー*12 銀:賞金20万円*9 銅:賞金10万円*10 | |
提出物 | 予測モデル + レポート | HTMLファイルやポスター等 | ||
評価 | 精度 | 精度上位 + レポートの審査 | 成果物の審査 |
*1:京セラ株式会社/*2:シャープ株式会社 /*3:株式会社日立製作所/*4:三菱電機株式会社/*5:パナソニック株式会社/*6:さくらインターネット株式会社 /*7:株式会社NTTドコモ/*8:株式会社ウェザーニューズ/*9:ウイングアーク1st株式会社/*10:Tableau Japan株式会社/*11:日本オラクル株式会社/*12:株式会社オプトホールディング
応募方法
コンテスト開催期間中
1.サイトの説明や利用規約を読み、目的やルールを理解しましょう。会員登録がまだの方は、まずは会員登録しましょう。
2.「データをダウンロード」ボタンから、データを取得しましょう。
3.分析が完了したら、サイト内に設置された各ボタンから結果をアップロードしましょう。
①予測部門の予測結果・・・「解析結果を送信」ボタン
※1日5回まで。何度も挑戦しましょう。
①予測部門のレポート・・・「①予測部門 レポートを送信」ボタン
※コンテスト終了までに作成し、投稿しましょう。
※複数回投稿できますが、最後に投稿した1つのみが評価対象になります。
②可視化部門の成果物・・・「②可視化部門 成果物を送信」ボタン
※複数回投稿できますが、最後に投稿した1つのみが評価対象になります。
コンテスト終了後
1.予測部門・精度賞の入賞候補者には通知が届きます。通知がきたら、期日内に必要書類等を提出しましょう。
モデルの再現性が確認できないと入賞取り消しとなる場合があるので、パラメータなどはこまめにメモしておきましょう。
2.審査にて決定した全入賞者には、入賞通知・表彰式の案内が届きます。
表彰式では、金賞の受賞者には、分析内容のプレゼンテーションを行っていただきます。
①予測部門
本部門は、太陽光発電所の発電量の予測モデル構築及び説明変数の設計を目的とします。
気象情報(アメダス観測値、地上気象観測値、気象予報)や過去の発電量を学習データとして、3箇所の太陽光発電所(浮島発電所、扇島発電所、米倉山発電所)の、2016/1/1~2017/3/31の30分単位の発電量(kWh)を予測していただきます。
ただし、ある日を予測をする時は、予測したい日の前日20時に確定している情報のみ使用できます。
(例)2016年8月23日を予測する場合
・発電量データ ・・・インデックスが2016年8月22日20時以前のデータが使用可
・アメダスデータ ・・・インデックスが2016年8月22日20時以前のデータが使用可
・地上気象観測データ・・・インデックスが2016年8月22日20時以前のデータが使用可
・気象予報データ ・・・インデックスが2016年8月23日以前のデータが使用可
※気象予報データのインデックスは予報の対象日を表し、予報は前日17時(2016年8月22日17時)に発表されるため
評価
・精度評価は、評価関数「weighted mean absolute error(WMAE:重み付き平均絶対誤差)」を使用します。この関数は、予測値が正解から平均的にどの程度の乖離があるかを示しており、モデルの予測精度の”悪さ”を表すため、0 に近い値であるほど優れています。(重みは非公開)
・アイデア評価では、変数の設計やモデリングの工夫点等を厳正な審査により評価します。
レポート
・レポートの提出は必須です。未提出の場合は、精度賞においても評価の対象外となりますのでご注意ください。
・データのダウンロードページにて取得できる「予測部門_レポート要件」を参照の上、作成してください。
②可視化部門
本部門は、データの可視化を活用したストーリーテリングを目的とします。
読み手の共感を得ることを意識し、データを俯瞰した上で取り組む対象の問題を設定し、因果推論等の分析結果やそこから得られた示唆や価値等、データから得られた一連のストーリーを、可視化を活用して分かりやすく視覚的に表現してください。
なお、本部門では独自にデータを収集し、提供データと組み合わせて利用することも可能です。ただし、第三者の権利を侵害しない、オープンに取得可能なデータのみを使用してください。
評価
着眼点、表現力、デザイン、納得性等を厳正な審査により評価します。
提出物
ブラウザで閲覧可能なHTMLファイル(関連ファイル一式)、またはPPTやPDFなどによるポスターやレポート等、特別な環境を用意することなく閲覧が可能なものであれば、表現方法は自由です。ただし、作品タイトル、コンセプト、利用データ、メッセージ、は提出物に含めてください。
テーマの例
・ゲリラ豪雨はいかにして発生しどのような影響を及ぼすか
・熱中症を引き起こす地理的環境・気象コンディションの可視化と予防策の検討
・キャベツの育成に適した条件及び価格に影響を及ぼす気象状況の解明
・企業業績や株価等と気象との関係性の考察
コンテスト期間中に利用できるビジュアル分析ツールもご用意していますので、是非ご活用下さい。
利用方法は、データのダウンロードページ の最下部に記載しています。
Oracle Data Visualization Desktop(提供:日本オラクル株式会社)
【準備中】Tableau Public(提供:Tableau Japan株式会社)
提供データ概要
分析用データとして、以下が与えられます。(※項目等の詳細はデータのダウンロードページで確認できます。)
データ種別 | 概要 | 提供元 |
---|---|---|
発電量データ | 浮島発電所、扇島発電所、米倉山発電所での発電量(kwh)を10分単位で統計したデータ(2012/1/1~2015/12/31) | 東京電力ホールディングス株式会社 |
気象予報データ | 神奈川東部、山梨中・西部の気象予報(2012/1/1〜2017/3/31) | 気象庁 |
アメダスデータ | 全国1252地点のアメダス(リンク内青丸)での観測値を10分単位で統計したデータ(2012/1/1〜2017/3/31)及び観測所の地点情報 | 気象庁 |
地上気象観測データ | 全国155地点の気象観測所(リンク内赤丸)での観測値を10分単位で統計したデータ(2012/1/1〜2017/3/31)及び観測所の地点情報 | 気象庁 |
各太陽光発電所の概要
施設名 | 浮島発電所 | 扇島発電所 | 米倉山発電所 |
---|---|---|---|
所在地 | 神奈川県川崎市川崎区浮島町 | 神奈川県川崎市川崎区扇島 | 山梨県甲府市下向山町 |
最大出力 | 7,000kW | 13,000kW | 10,000kW |
敷地面積 | 約11ha | 約23ha | 約12.5ha |
太陽電池 種類 | 単結晶シリコン | 多結晶シリコン | CIS薄膜化合物 |
| | |
ルール
1ユーザにつき1アカウント
コンテスト参加者は1人につき1アカウントまでです。
ただし、アカウントが1つという条件の元であれば、チームでの参加も可能とします。
他参加者との情報共有は禁止
コンテスト参加者が同じチーム以外の参加者と本コンテストの予測に関連するデータ・ソースコードを共有する行為は禁止です。
(①予測部門)学習データは提供データのみ
配布するデータ以外のデータを用いてモデルを学習することは禁止です。
(①予測部門)オープン且つ無料なツールのみ
モデルの学習に利用するツールは、オープン且つ無料なもの(python, R 等)に限定します。
(①予測部門)未来の情報は利用禁止
ある日を予測をする時は、予測したい日の前日20時に確定している情報のみ使用できます。
(①予測部門)汎用的なモデリングであること
提案した方法が一般的な環境において追加費用負担を伴わず、再現及び継続使用可能であることを保証する必要があります。
同じフォーマットで、異なるデータを入力した場合にも同様なロジックで予測できなければなりません。
例えば、根拠無く局所的に予測値を修正することは禁止となります。
(基準について不安がある場合は、事務局までお問い合わせください)
①予測部門の最終順位の決定
1.コンテスト期間終了時には、開催期間中とは異なる正解データセットでの評価値で最終評順位を決定し、スコアボードに反映します。
2.評価指標が、タイ(同値)の場合は、早い日時でご応募いただいた参加者を上位とします。
3.入賞候補者には、順位確定のため、下記の情報を提出していただきます。
(ア) 予測モデルのソースコード及び再現の為の手順書(前処理部分、学習部分、予測部分が分かるよう明記)
(イ) 実行環境(OSのバージョン、使用ソフトウェア及び解析手法)
(ウ) 乱数を利用したモデリングの場合の乱数シード(再現性確保のため、固定シードでのモデル推定にご協力下さい)
(エ) 各説明変数の予測モデルへの寄与度(寄与度の算出が可能な手法を用いた場合)
4.再現性検証期間中、入方候補者及び、その提出モデルが下記いずれかに該当する場合は懸賞の獲得資格を失います。
(ア) 事務局からの手続き上の連絡・要求に対して指定された期限内に対応しない
(イ) 参加条件やルールを満たしていない
(ウ) モデルの予測結果を再現できない
審査員の紹介(敬称略、五十音順)
越塚 登
気象ビジネス推進コンソーシアム 会長, 東京大学大学院情報学環 教授
小林 功
東京電力ホールディングス株式会社 リニューアブルパワー・カンパニー カンパニープレジデント
小山田 耕二
京都大学 学術情報メディアセンター コンピューティング研究部門 教授, 自然科学研究機構 客員教授, 日本学術会議連携会員
齊藤 秀
株式会社オプト 最高解析責任者CAO, 筑波大学人工知能科学センター客員教授, 理化学研究所 革新知能統合研究センター 客員研究員, 国立がん研究センター研究所 客員研究員, 統計数理研究所 客員准教授
杉山 将
理化学研究所 革新知能統合研究センター センター長, 東京大学 大学院新領域創成科学研究科 複雑理工学専攻 教授, 産業技術総合研究所 人工知能研究センター 客員研究員
竹内 義明
気象庁総務部参事官
辻井 潤一
産業技術総合研究所 フェロー, 産業技術総合研究所 人工知能研究センター研究センター長
樋口 知之
情報・システム研究機構 理事, 統計数理研究所長, 総合研究大学大学院統計科学専攻 教授
表彰式
各部門入賞者の表彰式を、2018年2月下旬~3月中旬に執り行う予定です。
詳細が決まり次第、本ページに掲載します。
主催・後援・協賛
主催:IoT推進ラボ、経済産業省、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)
後援:文部科学省、気象庁、一般社団法人太陽光発電協会、気象ビジネス推進コンソーシアム、筑波大学 人工知能科学センター
Score
Leaderboard
Software
Analysis method