これから統計分析や人工知能を学びたいのですが、おすすめの【サイトや書籍】、【ツール・環境作り】を教えて頂けますでしょうか。


PHPやMysqlはある程度使えますが、システムを0から開発できるエンジニアレベルではなく改変出来る程度のスキルです。

ですのでこれから覚えていきたいという形なのですが、子育てや仕事で時間が取りにくいため古い知識や覚えてもあまり意味が無いものは省いて効率化を図れたらと思っています。

具体的には例えば下記のような事や、
http://gigazine.net/news/20150116-buzzfeed-headlines-analysis/

1000種類のキーワードで、SEOで上位表示されているサイト上位1~10位の共通点等を洗い出す作業に使いたいと思っています。

もちろんすぐにとは思っていませんし、楽をするつもりもありませんが、忙しい中で極力最短の道を進むための情報、ヒントを教えてください。

環境はWin7 64Bit CPU3.4Ghz、メモリ32GBです。
メモリなどは置いておいて、入門の際は取り急ぎWin7で行いたいと思っています。
入門でさえも最初からLinuxなどのほうがよければそれも検討致しますので、環境やインストールすべきツール、簡単な理由なども教えてください。

回答の条件
  • 1人1回まで
  • 13歳以上
  • 登録:2015/01/27 11:23:59
  • 終了:2015/02/03 11:23:59

回答(4件)

id:rafting No.1

ラフティング回答回数2318ベストアンサー獲得回数1332015/01/27 18:56:52


『統計学が最強の学問である』ビジネス書大賞2014「大賞」受賞記念記事

35万部を突破し、知的教養書としては異例のベストセラーとなった『統計学が最強の学問である』が、このたび「ビジネス書大賞2014」にて「大賞」を受賞しました。
選考会でも力強いタイトルが話題になったようですが、そもそも、なぜ「統計学が最強の学問である」といえるのでしょうか? この問いに、著者である西内啓氏が、『統計学が最強の学問である』で“述べなかった理由”も含めて回答します。(※本記事はダイヤモンド社配布の書店用小冊子に寄稿いただいたものを一部改編したものです。)
http://diamond.jp/articles/-/52085

id:iori753

申し訳ありません。
本などは一応調べてはいますので存在は存じ上げているのですが、単純な本のURL、環境づくりのオススメや解説サイトURL、オススメの理由などもお願い致します。

恐れ入りますが希望の回答がなかった場合はキャンセルさせて頂きます事をお許しくださいませ。

2015/01/27 19:33:10
id:dilutionist No.2

dilutionist回答回数58ベストアンサー獲得回数182015/01/27 19:41:33

とりあえずRを試してみてはいかがでしょうか。
統計分析・グラフィックス・いろいろなライブラリを使用してテキストマイニングや機械学習も扱えます。

R on Windows

http://www.slideshare.net/mobile/langstat/osakar7

Rでデータマイニング - RjpWiki

Rによるテキストマイニング入門

Rによるテキストマイニング入門



#質問キャンセル、気にしませんのでガンガンやっちゃって下さい。

id:hacosato No.4

hacosato回答回数25ベストアンサー獲得回数162015/01/28 22:53:08

こんにちは。統計と機械学習をお勉強中の者です。

統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
ここで紹介されている本に取り組むのがよいと思います。
この記事を書いたあんちべさんは、
進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!
こういった記事を書いておられます。
私はこの進撃の巨人の記事を見てえらく感動し、同じ道を志しました!
刀剣乱舞集計速報_20150121 - あんちべ!
あんちべさんは最近この記事をアップされました。

統計に関する本の紹介としては他に
書籍20選?効率よく目的別に統計分析を書籍から学ぶ? | ビッグデータマガジン
統計学の初心者が入門として最初に読むべき一冊|Colorless Green Ideas
こういったものがあります。
でも見ていただければわかると思いますが、共通点が非常に多いので、
あんまりたくさんまとめに手を出す必要はないかと思います。
要は、

マンガでわかる統計学

マンガでわかる統計学

これを読むべきってことです。

データを収集するには、スクレイピングという技術が必要です。
PythonのScrapyかRubyのNokogiriを使うのがトレンドって感じがします。
Scrapyはやったことがないのですが、id:iori753さんPHPおできなら
問題なく使えるんじゃないでしょうか…?
PythonとかScrapyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - orangain flavor
このへんが詳しそうです。

Nokogiriを使うなら
Nokogiri を使った Rubyスクレイピング [初心者向けチュートリアル] - 酒と泪とRubyとRailsと
こことかよさそうです。
私は、

この本を読んでお勉強中です。
ほうぼうで言いふらしていますが、この本はやりながら手ごたえある成果を簡単に出せるので最高です!

データを解析するには、PythonかRかExcelを使うのがいい感じします。
Pythonの場合はNumPyを使うことになりそうです。
英語圏ではPythonを使うのが定番っぽいんですが…英語読めないのでわかりません…。
Pythonの数値計算ライブラリ NumPy入門 « Rest Term
このへんを読むとよいのかも。

Rの場合はid:dilutionistさんがご紹介されている本でもいいですが、

Rで学ぶ日本語テキストマイニング

Rで学ぶ日本語テキストマイニング

こちらのほうが同じ著者さんの新しい本です。
私はこの本でお勉強中です。

Excelの場合はたくさん本がありますが、このジャンルに特化しているのは

言語研究のための統計入門

言語研究のための統計入門

この本です。Seagull Statというものと組み合わせてExcelを活用しています。
Excel使わなくても言語研究と統計の絡みという点でとても役に立ちます。

私はRubyとRを使っていますが、理由は単純によい本に出会ったからです。
いまゼロから始めるならPythonで最初から最後まで貫くのがトレンドかもしれません。
その場合はいまひとつちゃんとしたご紹介ができないです…すみません。

最後に私の場合を。
私の趣味は歌詞を読むことですが、最近は統計的な手法での歌詞分析にも挑戦しています。
【統計とかテキストマイニングとか】今年の私が、歌詞読みのお勉強のために読んだ本まとめ - 5日と20日は歌詞と遊ぼう。
私が読んだ本は上記の記事にまとめました。
まだ統計分析しかできず、機械学習には手を広げ切れていないのですが、
最近の成果はこんな感じです。
2014年のオリコンとボカロのベスト100をテキストマイニングしました! - 5日と20日は歌詞と遊ぼう。
よろしければお楽しみください。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません