(cache)自然言語処理に使えるデータセットベスト25

お問い合わせ

自然言語処理に使えるデータセットベスト25

ミリアム・アリ | 2018年06月07日

自然言語処理に使える無料のオンライン・データセットは、どこで探すのが一番いいでしょうか。Gengoはインターネット上を隈なく調べて究極のデータセット・リストを作成し、テキスト、音声スピーチ、感情分析の三つに分類しました。

感情分析のデータセット

マルチドメイン感情分析データセット：アマゾンの商品レビューに的を絞った、やや古いデータセット。

IMDB レビュー：センチメントの二項分類のための、やや古い比較的小さなデータセットで、25,000の映画レビューから成る。

スタンフォード・センチメント・ツリーバンク：センチメントのアノテーションを付したスタンダードなセンチメント・データセット。

センチメント140: 顔文字をあらかじめ取り除いた16万のツイートを使用した、人気の高いデータセット。

ツイッター米航空会社センチメント：ポジティブ、ネガティブ、ニュートラルで分類した、2015年2月以降の米国航空会社に関するツイッターのデータ。

テキストのデータセット

20のニュースグループ：20の異なるニュースグループの約2万の文書コレクション。

ロイター・ニュース・データセット：1987年以降のロイターのテキストのデータセット。

ペン・ツリーバンク：1989年以降の『ウォール・ストリート・ジャーナル』の記事のデータセット。次の単語の予測に使用される。

カリフォルニア大学アーバイン校のスパムベース：スパムのフィルタリングに役立つスパムメールの大型データセット。

Yelpレビュー：Yelpがリリースしたオープンなデータセット。500万を超えるレビューから成る。

WordNet: 「synset」と呼ばれる英語の同義語グループの大型データセット。意味の異なる語句は別の「synset」に分類される。

音声スピーチのデータセット

2000HUB5英語評価記録：40本の電話の会話から成る英語の発話データ。

LibriSpeech: オーディオブックのデータセット。複数の朗読者による500時間に及ぶオーディオブックから成る。オーディオブックの章で整理されている。

TED-LIUM: 1,495本のTEDトークの録音コレクション。

発話された数字の無料データセット：英語における1,500の発話された数字の録音コレクション。

TIMIT：630人のアメリカ英語話者の録音コレクション。

自然言語処理のデータセット（一般）

エンロン・データセット：エンロン社管理職の電子メールのデータ。フォルダーに整理されている。

アマゾン・レビュー：18年にわたるアマゾンのおよそ3,500万のレビューから成る。データには、製品及びユーザー情報、評価、プレーンテキストのレビューが含まれる。

GoogleブックスNgrams：Googleブックスの単語のコレクション。

Bloggerコーパス：blogger.comから収集した681,288本のブログ記事のコレクション。各ブログには最低でも200の一般的英単語の使用が含まれている。

ウィキペディア・リンク・データ：ウィキペディアのテキスト全文。400万を超える記事の約19億語から成るデータセット。単語やフレーズ、段落の一部分で検索できる。

グーテンベルク電子書籍リスト：プロジェクト・グーテンベルクの電子書籍のアノテーション付きリスト。

カナダ議会議事録：第36回カナダ議会議事録の、2カ国語の130万のテキスト。

Jeopardy：クイズ番組『Jeopardy』で使われた20万を超える質問集。

英語のSMSスパム・コレクション: 英語の5,574のSMSスパムメッセージから成るデータセット。

必要なデータセットがまだ見つかりませんか。Gengoはお客様のニーズに合わせた、言語プロジェクト用のデータセットをご提供します。翻訳の世界でほぼ10年の経験を持つGengoの専門分野は、意味的アノテーションや感情分析をはじめとする自然言語関連のタスクです。Gengoはまた、英語と36の言語の21,000人を超える認定ネイティブスピーカーを擁しています。

参考文献：
https://deeplearning4j.org/opendata
https://github.com/niderhoff/nlp-datasets
https://github.com/MattTriano/Public_Dataset_Sources#naturallanguage
https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/

前の記事
自然言語処理入門

次の記事
機械学習に使えるオープンデータセットベスト50

著者紹介

ミリアム・アリ

Gengoに所属するフリーランスライター、人工知能(AI)に最大の関心。