機械学習に使えるオープンソースのデータセットには、どのようなものがあるでしょうか。Gengoは、クオリティの高いデータセットのリストを作ってみました。巨大な(Kaggleのような)ものから、極度に対象を絞った(自動運転車のデータ)まで、様々なデータセットがあります。
データセットを探す際に、まず心に留めておくべき指針があります。その指針は Dataquestによると、以下のとおりです。
- データのクリーニングに膨大な時間を費やしたくないため、データセットは雑然としていてはならない。
- 行や列があまり多くないデータセットのほうが作業がしやすい。
- データはクリーンであればあるほどいい。大きなデータセットのクリーニングには膨大な時間を要する場合がある。
- そのデータで解答が得られる興味深い質問が存在しなければならない。
では、始めましょう!
データセットを見つけるサイト
Kaggle: 外部から投稿された様々な興味深いデータセットを提供しているデータサイエンス・サイト。 マスターリストでは、ラーメンの評価 から バスケットボールのデータ や シアトルのペット免許まで、ありとあらゆるニッチなデータセットを見つけることができる。
カリフォルニア大学アーバイン校機械学習リポジトリ: インターネット上で最も歴史あるデータセット情報源のひとつで、面白いデータを探しているなら、最初にあたってみるべきサイト。データセットはユーザーが提供したものであるため、クリーン度にはばらつきがあるが、大多数はクリーン。登録しなくても、サイトから直接データをダウンロードできる。
一般的データセット
政府の公共データセット
Data.gov: 様々な米国政府機関のデータをダウンロードできるサイト。政府予算から学業成績スコアに至るまで、データは多様。ただし、多くのデータはさらなるリサーチを要する。
食物環境アトラス: 地域の食べ物の選択が米国の食生活にどのように影響を与えるかに関するデータ。
学校制度の財政: 米国の学校制度の財政の調査。
慢性疾患データ: 全米各地の慢性疾患の指標に関するデータ。
全米教育統計センター: 米国と世界の教育機関と教育人口のデータ。
UKデータサービス: 英国最大の社会と経済、人口のデータのコレクション。
データUSA: 米国の公共データを総合的に視覚化。
金融と経済
Quandl: 経済と金融の優れたデータソース。経済指標や株価の予想に使用するモデルの構築に役立つ。
世界銀行オープンデータ: 全世界の人口動態と膨大な数の経済指標・開発指標を網羅したデータセット。
IMFデータ: 国際通貨基金の発表による、国際金融や金利、外貨準備金、商品価格、投資などのデータ。
フィナンシャル・タイムズ市場データ: 株価指標、商品、外国為替など、世界の金融市場の最新情報。
Googleトレンド: インターネット検索と世界中のトレンディングニュースに関するデータ検証と分析。
米国経済学会(AEA): 米国マクロ経済の優れたデータソース。
機械学習のデータセット:
画像
Labelme: アノテーション付き画像の巨大なデータセット。
ImageNet: 新たなアルゴリズムに使用するデファクトの画像データセット。WordNetの階層に従って整理されており、階層の各ノードは数百、数千の画像によって表されている。
LSUN: 多くの補助タスク(部屋のレイアウト推定や顕著性予測など)のあるシーン理解。
MS COCO: 一般的画像理解とキャプション生成。
COIL100 : 100個の異なる物体を360度すべての角度で映した画像。
Visual Genome: 視覚に関する極めて詳細な知識を得られるサイトで、10万枚までの画像をキャプション生成している。
Googleのオープン画像: クリエイティブ・コモンズの下で「6,000超に及ぶカテゴリーのラベル付けを施した」画像の900万のURL集。
Labelled Faces in the Wild: 顔認識関連のアプリケーション開発への使用を目的に収集された、人の顔のラベル付けした画像13,000枚。
スタンフォード 犬のデータセット: 20,580枚の画像と120種の犬種カテゴリーから成る。
室内シーン認識: ほとんどのシーン認識モデルは「屋外」のほうが優れているため、利用価値のある極めて特殊なデータセット。67の屋内カテゴリーと、合計15,620枚の画像から成る。
感情分析
マルチドメイン感情分析データセット: アマゾンの商品レビューに的を絞ったやや古いデータセット。
IMDB レビュー: センチメントの2項分類のための、やや古い比較的小さなデータセットで、25,000の映画レビューが存在する。
スタンフォード・センチメント・ツリーバンク: センチメントのアノテーションを付したスタンダードなセンチメント・データセット。
センチメント140: 顔文字をあらかじめ取り除いた16万のツイートを使用した人気の高いデータセット。
ツイッター米航空会社センチメント: ポジティブ、ネガティブ、ニュートラルで分類した、2015年2月以降の米国航空会社に関するツイッターのデータ。
自然言語処理
エンロン・データセット: エンロン社管理職の電子メールのデータ。フォルダーに整理されている。
アマゾン・レビュー: 18年にわたるアマゾンのおよそ3500万のレビューから成る。データには、製品及びユーザー情報、評価、プレーンテキストのレビューが含まれる。
GoogleブックスNgrams: Googleブックスの単語のコレクション。
Bloggerコーパス: blogger.comから収集された681,288のブログ記事のコレクション。各ブログには最低でも200の一般的英単語の使用が含まれている。
ウィキペディア・リンク・データ: ウィキペディアのテキスト全文。400万を超える記事の約190億語から成るデータセット。単語やフレーズ、パラグラフの一部分で検索できる。
グーテンベルク電子書籍リスト: プロジェクト・グーテンベルクの電子書籍のアノテーション付きリスト。
カナダ議会議事録: 第36回カナダ議会議事録の、2カ国語の130万のテキスト。
Jeopardy:クイズ番組「Jeopardy」で使われた20万を超える質問集。
英語のSMSスパム・コレクション: 英語の5,574のSMSスパムメッセージから成るデータセット。
Yelpレビュー: Yelpがリリースしたオープンなデータセット。500万を超えるレビューから成る。
カリフォルニア大学アーバイン校のスパムベース: スパムのフィルタリングに役立つスパムメールの大型データセット。
自動運転
バークレー・ディープドライブBDD100k: 自動運転人工知能のためのデータセットとしては、現在のところ最大。異なる時間帯や天候の下における1,100時間を超える運転経験を撮影した10万超の動画から成る。アノテーション付き画像はニューヨークとサンフランシスコ地域のもの。
百度アポロスケープ: 車や自転車、歩行者、建物、街灯など、26の異なった意味を持つアイテムを定義する大型データセット。
Comma.ai: 7時間超のハイウェイ走行。車の速度、加速、ステアリング角、GPS座標などの情報を含む。
オックスフォード・ロボットカー:英国オックスフォードの同一ルートの走行を1年間にわたって100回以上繰り返したデータ。異なる天候や交通量、歩行者の組み合わせと、建設現場、道路工事などの長期にわたる変化も捉えたデータセット。
都市景観データセット: 50都市の街路シーンを記録した大型データセット。
CSSADデータセット: 自動運転車の認知とナビゲーションに役立つデータセット。開発途上国の道路に大きく偏っている。
KULベルギー交通標識データセット: ベルギーのフランダース地方の物理的に異なる数万の交通標識から得た1万を超える交通標識のアノテーション。
マサチューセッツ工科大学AgeLab: AgeLabが収集した1,000時間を超えるマルチセンサー運転データセットのサンプル。
LISA: インテリジェントで安全な自動車研究室。カリフォルニア大学サンディエゴ校のデータセット: 交通標識、自動車検知、信号機、軌跡パターンなどを含むデータセット。
見落としているデータセットがありましたら、お知らせください。また、Gengoが作成した、自然言語処理用のデータセットのより詳しいリストがこちらにありますので、ご覧ください。必要なデータセットがまだ見つかりませんか。Gengoにお問い合わせください。Gengoはお客様に合わせた機械学習用データセットをご提供します。お客様にふさわしいワークフローをデザインするところから、お客様の特定のプロジェクトにぴったりの、資格を有する人材を割り当てるところまで、Gengoはすべてのプロセスをお引き受けします。Gengoは英語と36の言語の認定ネイティブスピーカーを擁しています。
参考文献:
https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#5406a2285f8a
https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets
https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2
https://www.dataquest.io/blog/free-datasets-for-projects/
https://gengo.ai/articles/the-best-25-datasets-for-natural-language-processing/
https://github.com/awesomedata/awesome-public-datasets#machinelearning