2009-02-16
■[Webアプリ][Ruby]2ちゃんねるBOTの作り方 準備編
アホな話
2ch画像まとめbetaというウェブサービスをご存知でしょうか。
クロール?スパイダリング?スクレイピング?いわゆるBOTが2chに書き込まれた画像を取得し、
まとめて見れるようにしたサイトなのですが、今日、次の記事を見つけた。
新鋭サービスで2chに貼られた画像を根こそぎDL! :教えて君.net
しかも、2ch画像まとめbetaで見れる画像は全てWeb用に縮小した画像です。
ダウンロードするようなコレクターはオリジナルをダウンロードしたほうが良いですよ。
ということでBOTつくりましょう。
前知識
2chはスレッド型掲示板の集合であり、全ての掲示板は次のHTMLファイルに一覧されてます
http://menu.2ch.net/bbsmenu.html
たとえばニュー速VIPを探すと次のようなリンクが見つかります。(2009.02.16時点)
<A HREF=http://takeshima.2ch.net/news4vip/>ニュー速VIP</A><br>
そして、その掲示板に属するスレッド情報は次のテキストファイルに保存されてます。
掲示板URL/subject.txt
例えば、上の例のニュー速VIPのスレッド一覧は次で取得できる。
http://takeshima.2ch.net/news4vip/subject.txt
中身はこんなの
1234788965.dat<>女に聞きたいんだけど (12)
そして最後に、スレッドの中身である、いわゆるDATファイルは次で取得できます
掲示板URL/dat/DATファイル名
例えば、「女に聞きたいんだけど」スレッドのDATファイルはコチラ
http://takeshima.2ch.net/news4vip/dat/1234788965.dat
中身はこんなの
以下、名無しにかわりましてVIPがお送りします<><>2009/02/16(月) 21:56:05.62 ID:bypsi+v7O<> 好きでも嫌いでもない男にどういう事されたらグッとくるのか教えろや <>女に聞きたいんだけど
<>で区切られて、名前やら時間やらコンテンツやらが書かれています。
3.対象のsubject.txtを読み込む
- 1234788965.dat<>女に聞きたいんだけど (12)
何らかのプログラム経験があれば、これだけ分かればBOTらしきものが作れるかと思います。
準備編おしまい!
トラックバック - http://d.hatena.ne.jp/gioext/20090216/1234792587
リンク元
- 11 http://gxc.google.com/gwt/n?u=http://pic2ch.giox.org/thread/3938&hl=ja&mrestrict=xhtmlchtml&inlang=ja&client=ms-kddi-jp
- 10 http://www.unoh.net/infoc.html
- 8 http://pic2ch.giox.org/
- 6 http://d.hatena.ne.jp/
- 6 http://pic2ch.giox.org/thread/4925
- 6 http://twitter.com/gioext
- 4 http://ezsch.ezweb.ne.jp/search/ezGoogleMain.php?query=2ちゃん画像&start-index=4&adpage=3&mode=02
- 4 http://www.google.co.jp/search?hl=ja&q=2ch画像まとめ&meta=lr=&aq=f
- 2 http://b.hatena.ne.jp/add?mode=confirm&title=2%u3061%u3083%u3093%u306D%u308BBOT%u306E%u4F5C%u308A%u65B9 %u6E96%u5099%u7DE8 - GIO%u306E%u65E5%u8A18&url=http://d.hatena.ne.jp/gioext/20090216/1234792587
- 2 http://d.hatena.ne.jp/gioext