2011年10月13日

2ちゃんねるサイトのdatを取得する方法

2ちゃんねるのサイトのdatファイルを取得して、テキストマイニングしたいという案件が来ました。

テキストマイニング自体はクライアント側でシステムを購入するということで、2ちゃんねるのdatファイルをcsvにするWebserviceを制作できないという要望です。

いろいろ調べた結果、以下の方法が良いのではないかと思っています。

たとえばゲームのことを調べたい場合
2ちゃんねるのゲームスレッドを探します。
http://hato.2ch.net/test/read.cgi/gameswf/1318169440/

それを
2ch DAT落ちスレ ミラー変換機 ver.12
に入れます
http://mirrorhenkan.g.ribbon.to/

そうすると
その8・datファイル(要解凍)
というところにdatファイルをダウンロードするURLが出てきます。

この作業を自動化するのが今回の依頼なので、以下の機能を実装すればよいかと思います。


  1. 検索したいキーワードを入力出来る画面
  2. 検索対象の2ちゃんねるURLを登録する画面
  3. datをcsv化する機能


感覚的にはクローラーを作成する感じなのかなぁと思います。
posted by アプリ開発 at 14:36| Comment(0) | TrackBack(0) | 2ちゃんねる | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/230244076
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック