2011-06-03
■[PHP][Python][Ruby][Web]スクレイピングするなら ScraperWiki 使うといいよ

Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。
そうではないみなさんには少々の説明が必要かと思いますので少々書きます。
ScraperWiki はスクレーパ(Web ページをスクレイピングするスクリプト)とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wiki と名が付いていますが Wiki っぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念が Wiki と共通しているのが由来みたいです。
ScraperWiki を使うとスクレーパを作るのがラクになります:
- Web ベースのエディタでスクレーパを書き、その場で実行できる
- PHP、 Python または Ruby が使える(HTML パーサなどのモジュールは各種インストール済み)
- 1日に1回〜半年に1回のスケジュールで定期的に実行してくれる
- スクレーパのソースコードは誰でも編集、フォークできる
データの保存と再利用もカンタンです:
- データを SQLite に保存できる
- REST API でデータを取得できる(クエリをビジュアルに編集できるエディタつき)
- HTML で書いたビューもホストしてくれる(Google Maps にデータをプロットする例)
うまく使えば楽しいことができたり性的に興奮したりするのではないでしょうか。僕も衆議院の議員一覧のスクレーパを書いてみましたよ(性的には興奮しませんでした)。
以上です。
追伸:このスクレーパは簡潔なので編集画面を開いてコードを眺めたり実行したりすると感じが掴めるかもしれません。チュートリアルを読みつつ、スクレーパ一覧から maintenance required なコードを探して直してみるのもいいでしょう。
コメントを書く
トラックバック - http://d.hatena.ne.jp/uasi/20110603/1307098299
リンク元
- 193 http://b.hatena.ne.jp/hotentry
- 183 http://b.hatena.ne.jp/hotentry/it
- 177 http://reader.livedoor.com/reader/
- 101 http://twitter.com/
- 77 http://bit.ly/iStzUN
- 73 http://www.google.com/reader/view/
- 69 http://www.google.co.jp/reader/view/
- 51 http://longurl.org
- 35 http://www.google.co.jp/reader/view/?hl=ja&tab=wy
- 25 http://d.hatena.ne.jp/
おとなり日記
- 2011-05-29 /boost/developers 4/33 12%
- 2011-05-29 カンタンWEBぷろぐらみんぐ<?=tageo;> 3/32 9%
- 2011-05-29 カゲマサの日記 4/49 8%
- 2011-05-30 adnamiのブログ 3/36 8%
- 2011-05-30 junji_furuyaのブログ 3/54 5%