rvest パッケージを使ってWEBから文字列を取得し、これをデータフレームにして RMeCab の doDF()
で解析する。
library(rvest)
library(dplyr)
x <- read_html("http://anond.hatelabo.jp/20170429110724")
texts <- x %>% html_nodes("#body > div.day > div.body > div > p:nth-child(3)") %>% html_text()
if(.Platform$OS.type == "windows") texts <- iconv(texts, from = "UTF-8")
textDF <- data.frame(X = texts, stringsAsFactors = FALSE)
library(RMeCab)
textDF2 <- docDF(textDF, pos = c("名詞", "動詞", "形容詞"), column = 1, type = 1)
解析結果
> head(textDF2)
TERM POS1 POS2 Row1
1 3 名詞 数 5
2 4 名詞 数 3
3 あがる 動詞 自立 1
4 あまり 名詞 接尾 1
5 ありがたい 形容詞 自立 1
6 ある 動詞 非自立 2
> tail(textDF2)
TERM POS1 POS2 Row1
235 様 名詞 接尾 2
236 様子 名詞 一般 1
237 来る 動詞 自立 2
238 立つ 動詞 自立 1
239 歴史 名詞 一般 1
240 饒舌 名詞 形容動詞語幹 1