Hatena::Diary

GIOの日記 RSSフィード

2009-02-16

[][]2ちゃんねるBOTの作り方 準備編

アホな話

2ch画像まとめbetaというウェブサービスをご存知でしょうか。

クロール?スパイダリングスクレイピング?いわゆるBOT2chに書き込まれた画像を取得し、

まとめて見れるようにしたサイトなのですが、今日、次の記事を見つけた。

新鋭サービスで2chに貼られた画像を根こそぎDL! :教えて君.net

アホすぎる。クローラクローラなんて。。

しかも、2ch画像まとめbetaで見れる画像は全てWeb用に縮小した画像です。

ダウンロードするようなコレクターオリジナルダウンロードしたほうが良いですよ。

ということでBOTつくりましょう。

前知識

まずはコードを書く前に2chのしくみを簡単に。

2chスレッド掲示板の集合であり、全ての掲示板は次のHTMLファイルに一覧されてます

http://menu.2ch.net/bbsmenu.html

たとえばニュー速VIPを探すと次のようなリンクが見つかります。(2009.02.16時点)

<A HREF=http://takeshima.2ch.net/news4vip/>ニュー速VIP</A><br>

※各掲示板リンク先は定期的に変更されています。


そして、その掲示板に属するスレッド情報は次のテキストファイルに保存されてます。

掲示板URL/subject.txt

例えば、上の例のニュー速VIPスレッド一覧は次で取得できる。

http://takeshima.2ch.net/news4vip/subject.txt

中身はこんなの

1234788965.dat<>女に聞きたいんだけど (12)

そして最後に、スレッドの中身である、いわゆるDATファイルは次で取得できます

掲示板URL/dat/DATファイル名

例えば、「女に聞きたいんだけど」スレッドDATファイルはコチラ

http://takeshima.2ch.net/news4vip/dat/1234788965.dat

中身はこんなの

以下、名無しにかわりましてVIPがお送りします<><>2009/02/16(月) 21:56:05.62 ID:bypsi+v7O<> 好きでも嫌いでもない男にどういう事されたらグッとくるのか教えろや <>女に聞きたいんだけど

<>で区切られて、名前やら時間やらコンテンツやらが書かれています。


以上から、2ちゃんBOTの処理の流れは次のようになる

1.掲示板一覧ファイルを読み込む

2.対象掲示板リンクを探す

3.対象のsubject.txtを読み込む

4.対象スレッドを探す

  • 1234788965.dat<>女に聞きたいんだけど (12)

5.DATファイルを読み込む

6.DATファイルをゴニョゴニョする


何らかのプログラム経験があれば、これだけ分かればBOTらしきものが作れるかと思います。


準備編おしまい