ITエンジニア/デザイナ向けにオープンソースを毎日紹介

Googleの検索結果を取得して分析に使いたいと考える人は大勢います。しかし機械的に収集しようとすると、GoogleからCAPTCHA入力が求められます。そのため自動化しづらく、手作業で収集している人も多いでしょう。

しかし裏道がありそうです。Facebookを経由するとそのトラップに引っかからないようです。その実証として作られたのがgoopです。

goopの使い方

goopで検索を行います。その際、Facebookのクッキーを適用するのがコツです。

  1. from goop import goop
  2. page_1 = goop.search('open source', '<facebook cookie>')
  3. print(page_1)

ちゃんと検索結果が返ってきます。

  1. {0:
  2. {
  3. 'url': 'https://opensource.org/osd-annotated',
  4. 'text': 'The Open Source Definition (Annotated) | Open Source Initiative',
  5. 'summary': "Open source doesn't just mean access to the source code. ... of an aggregate software distribution containing programs from several different sources."
  6. },
  7. 1: {
  8. 'url': 'https://opensource.org/osd',
  9. :

goopはFacebook Debuggerを経由してGoogleにアクセスします。この時、FacebookとGoogleとで契約が結ばれているのか、CAPTCHAに移動しないようです。その裏道を使って検索結果を自在に取得できるようにしているのがgoopです。

goopはPython製のオープンソース・ソフトウェア(GPL v3)です。

s0md3v/goop: Google Search Scraper

MOONGIFTプレミアムに登録して運営をサポートしてください!月額500円の他、半年(3,000円)、年間パック(6,000円)もあります。企業向けに3アカウント以上で請求書払いも可能です(年間一括のみ)。従業員の方向けのサービスにいかがですか? プレミアムユーザのログインはこちらから

 

MOONGIFTの関連記事

コメント

  • DevRel
  • Com2