データセットとかの知見を集めました。
いいデータセットないかと調べる機会があったので、得た知見をまとめてみました。
これについてはすでに良い情報がすでにあったのでそのリンクも紹介します。
grouplensのデータセットは、論文などにも利用されているのを見かけました。
注意点としては
・EachMovieなどは利用できない
・MovieLensやDelicious、Last.fmはdat形式のファイル
・WikiLensはdumpして使うようにされている
・Book-Crossingはcsvとsql
・jesterはExcelファイル
ということです。
それ以外だと
livedoor グルメの研究用データセットです。 2011年4月22日時点でのデータ
https://github.com/livedoor/datasets
Yahoo! Labs、Flickrで研究用のデータセットとして1億件の画像等をCCライセンスで公開 | カレントアウェアネス・ポータル
上記のに加えてAPIとかであれば
日本の全エンジニアに捧ぐ!現在公開されているAPI一覧【2013年版】 | Find Job ! Startup
が参考になるのかなと思います。
申請が必要なのもありますが、海外のほうがデータに対してもオープンで日本とは違った印象をかなり受けました。