ウェブスクレイピングと形態素解析

  • 2
    いいね
  • 0
    コメント

rvest パッケージを使ってWEBから文字列を取得し、これをデータフレームにして RMeCabdoDF() で解析する。

library(rvest)
library(dplyr)

x <- read_html("http://anond.hatelabo.jp/20170429110724")

texts <- x %>% html_nodes("#body > div.day > div.body > div > p:nth-child(3)") %>% html_text()

if(.Platform$OS.type == "windows") texts <- iconv(texts, from = "UTF-8")

textDF <- data.frame(X = texts, stringsAsFactors = FALSE)

library(RMeCab)

textDF2 <- docDF(textDF, pos = c("名詞", "動詞", "形容詞"), column = 1, type = 1)

解析結果

> head(textDF2)
        TERM   POS1   POS2 Row1
1         3   名詞     数    5
2         4   名詞     数    3
3     あがる   動詞   自立    1
4     あまり   名詞   接尾    1
5 ありがたい 形容詞   自立    1
6       ある   動詞 非自立    2
> tail(textDF2)
    TERM POS1         POS2 Row1
235   様 名詞         接尾    2
236 様子 名詞         一般    1
237 来る 動詞         自立    2
238 立つ 動詞         自立    1
239 歴史 名詞         一般    1
240 饒舌 名詞 形容動詞語幹    1