AngleSharpでスクレイピングする

はじめに

Web関連のお仕事中ですが、なぜかC#を使うことになりネットで検索しながら対応しました。
ですが、案外と古い情報ばかりで答えに到達できずに少し苦労しましたので、最新の情報に更新したいと思います。

目的

C#で特定のWebサイトをスクレイピングして、サイト内のURLを取得し、そのリンク先にあるzipファイルをダウンロード。。。
月次、日次や週次処理として自動化することが目的です。

使っていること

C# (.Net 4.7.x) Visual Studio 2017を使用
AngleSharp 0.13.0.0 (2019/10現在の最新を使用)
System.IO.Compression.FileSystem (Zipファイルを解凍するのに使用)

インストールなど

AngleSharp

Visual Studio 2017の NuGetからインストールします。
※ 詳細は割愛します。

System.IO.Compression.FileSystem

プロジェクトの参照の追加より、System.IO.Compression.FileSystem を追加します。
参考にしましたサイトは以下です。
C#でZipファイルを解凍・圧縮する

仕様の概要

  1. 特定のURLのページデータを取得
  2. パースする
  3. 必要なURLを抽出する(特定のaタグのhref属性の情報を取得)
  4. 取得したURLのzipファイルをダウンロード
  5. ダウンロードしたファイルを解凍

ソースコード例

HttpClientをusingで囲わないでください

ちょうどいいタイミングでトレンドになっていましたので、参考になりました。

main.cs
private static HttpClient client;

public void mainRun()
{
    var filename = @"<解凍されたファイル名>"; // 本当は全体パスにしています
    // ファイルがなければダウンロードします
    if (!File.Exists(filename))
    {
        // ダウンロードが終わるまで待ち合わせます
        GetDownloadFile().GetAwaiter().GetResult();
    }
         :
         :
         // ファイルの内容をチェック・取り込みなどしてますが割愛します
}

///
/// ダウンロードする
///
public async Task GetDownloadFile()
{
   try
   {
       // まずは、スクレイピングするデータを取得します
       var response = await client.GetAsync(@"<スクレイピングするサイトのURL>");
       var sorce = await response.Content.ReadAsStringAsync();

       // パースします
       var doc = default(IHtmlDocument);  
       var parser = new HtmlParser();
       doc = await parser.ParseDocumentAsync(sorce);    // ここが変わっています!!

       // 取得したいURLデータを探します
       // 今回取得したいデータは、同一のselectorの最後のデータでしたので、
       // .Last()で取得しています
       // .Select()とかで取得したほうがいいこともあると思います
       var url = doc.QuerySelectorAll("<取得したい条件>").Last().GetAttribute("href");

       // ファイルをダウンロードします
       // 今回取得したURLはhttps://xxx から始まるURLなのでそのまま使用しています
       WebClient webClient = new WebClient();
       webClient.DownloadFile(url, <保存するファイル名(絶対パスで)>);

       // ZIPファイルを解凍します
       ZipFile.ExtractToDirectory(<保存するファイル名(絶対パスで)>, <解凍先フォルダー名>);
   }
   catch (Exception e)
   {
       // エラー処理
   }
}

補足事項

    GetDownloadFile().GetAwaiter().GetResult();

呼び出し元で同期したかったので、すべての処理が終わるまで待ち合わせています。
Taskのメソッドを呼び出して対応しています。

       var response = await client.GetAsync(@"<スクレイピングするサイトのURL>");
       var sorce = await response.Content.ReadAsStringAsync();

取得の仕方はいろいろあると思いますが、今回は簡単な方法を採用しました。
client.GetStreamAsync()などでもいいかと思います。

       var doc = default(IHtmlDocument);  
       var parser = new HtmlParser();
       doc = await parser.ParseDocumentAsync(sorce);    // ここが変わっています!!

パースの仕方が以前の方法から変わっています。
参考にしたサイトなどはほとんどdoc = await parser.ParseAsync(stream);などとなっていました。
現在のバージョンでは、ParseAsync()はありません。

       var url = doc.QuerySelectorAll("<取得したい条件>").Last().GetAttribute("href");

今回掲載はしていませんが、例えば、
div.button-div > a などでセレクタ指定します。
上記の場合は、 divタグのclass属性に”button-div”があるときにそのdiv内にあるaタグをすべて取得する
となります。

       WebClient webClient = new WebClient();
       webClient.DownloadFile(url, <保存するファイル名(絶対パスで)>);

ファイルのダウンロードは、WebClient クラスで簡単にできます。

       // ZIPファイルを解凍します
       ZipFile.ExtractToDirectory(<保存するファイル名(絶対パスで)>, <解凍先フォルダー名>);

ZIPファイルの解凍はZipFileクラスで簡単にできます。
.Net 4.5以上ならとても簡単です。

最後に

技術は日々変わっていますので、情報のアップデートは必要ですね。
調べるのに結構時間がかかりましたのでご参考になれば幸いです。

参考URL

参考になりました。ありがとうございました。

HttpClientをusingで囲わないでください
C#でモダンにスクレイピングするならAngleSharp
C#でZipファイルを解凍・圧縮する
ネットワーク上のファイルのダウンロード

village
気が付いたら、フリーランスのエンジニアになりました。 PHP + Laravel + Vue.js + Node.js = 今の仕事 python + 機械学習 = 勉強中
ユーザー登録して、Qiitaをもっと便利に使ってみませんか。
  1. あなたにマッチした記事をお届けします
    ユーザーやタグをフォローすることで、あなたが興味を持つ技術分野の情報をまとめてキャッチアップできます
  2. 便利な情報をあとで効率的に読み返せます
    気に入った記事を「ストック」することで、あとからすぐに検索できます
コメント
この記事にコメントはありません。
あなたもコメントしてみませんか :)
すでにアカウントを持っている方は
ユーザーは見つかりませんでした