• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
 

渡る世間は自然言語ばかり #東京スクラッパー

on

  • 229 views

第1回Webスクレイピング勉強会@東京の発表資料。

第1回Webスクレイピング勉強会@東京の発表資料。

Statistics

Views

Total Views
229
Views on SlideShare
184
Embed Views
45

Actions

Likes
0
Downloads
4
Comments
0

2 Embeds 45

http://tokyoscrapper.connpass.com 39
http://blog.negativemind.com 6

Accessibility

Categories

Upload Details

Uploaded via SlideShare as Microsoft PowerPoint

Usage Rights

CC Attribution-ShareAlike LicenseCC Attribution-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    渡る世間は自然言語ばかり #東京スクラッパー 渡る世間は自然言語ばかり #東京スクラッパー Presentation Transcript

    • http://pixabay.com/ja/%E3%82%A2%E3%83%AB %E3%83%95%E3%82%A1%E3%83%99%E3%83%83%E3%83%88-%E3%83%AA %E3%83%86%E3%83%A9%E3%82%B7%E3%83%BC-%E6%96%87%E5%AD%97-%E8%AA %AD%E3%81%BF%E5%8F%96%E3%82%8A-%E3%82%A2%E3%83%AB %E3%83%95%E3%82%A1%E3%83%99%E3%83%83%E3%83%88%E9%A0%86-99374/ 第 1 回 Web スクレイピング勉強会 @ 東京 ( # 東京スクラッパー) 渡る世間は自然言語ばかり 〜単語分割 / 品詞特定で獲得データ量倍増!〜 @nezuq
    • Web ……データは、構造化されていない というか、自然言語( ex. 普通の会話文) ……ばかり Python - 徹底攻略PDFオープンデータ。PDFMinerで始めるPDFテキスト分析。 - Qiitahttp://qiita.com/nezuq/items/75e8366d68c66e56ff53
    • これ / を / 構造 / 化 / でき / たら / 、 / データ量 / 倍増 / な / のに / なぁ / !
    • 感情分析とかもできちゃうのになぁ! Good ・嫌い ・暗い ・辛い ・気持ち悪い ・悪魔 ・バカ ……      ・好き ・明るい ・楽しい ・気持ちいい ・天使 ・天才 ……      ミクさんマジ天使! Bad
    • できます!
    • ツールはいっぱいある。 代表的なツールとして、3つを紹介! ・ MicrosoftOffice Word ( Word-VBA ) ・ Yahoo API (日本語形態素解析 API ) ・ MeCab
    • MicrosoftOffice Word WordVBA の Document.words プロパティで、 文書内の単語を配列として取得できる。 ※ ただし、候補が2つ以上の場合は、両方とも取得される。 Sub 分かち書き () Set doc = Documents.Add For Each wrd In ThisDocument.Words doc.Content.InsertAfter wrd & "/" Next End Sub ミク / さん / マジ / 天使 / ! / WordVBA - Qiita参考: で分かち書き
    • Yahoo API 日本語形態素解析 API で、 文書内の単語を品詞付き XML として取得できる。 ※ ただし、使用回数と文章量に限界がある。 http://jlp.yahooapis.jp/MAService/V1/parse? appid=< あなたのアプリケーション ID>&results=ma,uniq&uniq_filter=9%7C10&senten ce= ミクさんマジ天使! <word> <surface> ミク </surface> <reading> みく </reading> <pos> 名詞 </pos> <baseform> ミク </baseform> </word> …… : API - Yahoo!参考:テキスト解析 日本語形態素解析 デベロッパーネットワーク
    • MeCab オープンソースの形態素解析エンジンで、 文書内の単語を品詞付き CSV として取得できる。 ※ 使用回数に限界はなく、長文も対応できる。 $ mecab ミクさんマジ天使! ミク 名詞 , 固有名詞 , 人名 , 名 ,*,*, ミク , ミク , ミク さん 名詞 , 接尾 , 人名 ,*,*,*, さん , サン , サン マジ 名詞 , 一般 ,*,*,*,*, マジ , マジ , マジ , ニコニコ大百科 天使 名詞 , 一般 ,*,*,*,*, 天使 , テンシ , テンシ , ニコニコ大 百科 ! 記号 , 一般 ,*,*,*,*, ! , ! , ! MeCab: Yet Another Part-of-Speech and Morphological Analyzer参考:
    • ただし、 MeCab は新語・俗語に弱い。
    • 辞書を拡張する。 代表的なデータ元として、3つを紹介! 実際の追加方法は 「 < サイト名 > mecab 辞書」でググる。 ・ Wikipedia ・はてなキーワード ・ニコニコ大百科
    • 自然言語処理を楽しもう! 自然言語 名詞 , 固有名詞 ,*,*,*,*, 自然言語 ,*,*,wikipedia_word, 処理 名詞 , サ変接続 ,*,*,*,*, 処理 , ショリ , ショリ を 助詞 , 格助詞 , 一般 ,*,*,*, を , ヲ , ヲ 楽しも 動詞 , 自立 ,*,*, 五段・マ行 , 未然ウ接続 , 楽しむ , タノシモ , タノシモ う 助動詞 ,*,*,*, 不変化型 , 基本形 , う , ウ , ウ EOS