2015-01-01
某所における声優統計の評判
あけましておめでとうございます。
某書が話題になっているそうですが、直接確かめる度胸はないので形態素で把握します。
形態素の処理は適当です。
# 参考 https://gist.github.com/r-linux/4958fd92355dbae01c7b library(RMeCab) library(XML) library(dplyr) u <- "http://fox.2ch.net/test/read.cgi/poverty/1420023769/" dat_freq <- htmlParse(u) %>% xpathSApply('//dd',xmlValue) %>% paste(collapse="。") %>% RMeCabC() %>% unlist %>% data_frame(POS1=names(.), TERM=.) %>% filter (POS1 %in% c("名詞","形容詞","動詞"), !(grepl(paste( c(LETTERS,letters, 0:9,"/", ":", ";",">","<","-","\\."," ", " ", "_", "_","\", "、","Д","'", "´", "\\*"),collapse = "|"), TERM))) %>% group_by(TERM) %>% summarise(Freq=n()) %>% filter(Freq<=50) # 高頻度のものはゴミが多かったので # ワードクラウドの作成 library(wordcloud) par(family = "HiraKakuProN-W6") wordcloud(dat_freq$TERM, dat_freq$Freq)
結果はこちら。カルピスってなんだよ。
トラックバック - http://d.hatena.ne.jp/dichika/20150101/p1
リンク元
- 13 https://www.google.co.jp/
- 12 http://t.co/1jio6r5ioK
- 12 http://t.co/iXnfFQQ94y
- 4 http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&ved=0CDgQFjAC&url=http://d.hatena.ne.jp/dichika/20140503/p1&ei=U0CkVKLzIaKimQW0xoLgDQ&usg=AFQjCNFFF4Rn3R-H5WuiNWsorAak4CABNw&bvm=bv.82001339,d.dGY
- 3 http://b.hatena.ne.jp/entry/d.hatena.ne.jp/dichika/20150101/p1
- 3 http://www.google.co.jp/url?url=http://d.hatena.ne.jp/dichika/20141216/p1&rct=j&frm=1&q=&esrc=s&sa=U&ei=3NCkVOK3Cs_r8AXThILgAw&ved=0CBcQFjAA&usg=AFQjCNEEFB-ot6du5b_Qxr7LrgGynFfcfA
- 1 http://a.hatena.ne.jp/langstat/
- 1 http://b.hatena.ne.jp/search/tag?q=R&users=1
- 1 http://b.hatena.ne.jp/search/text?q=声優統計
- 1 http://bit.ly/1Aideeb