こんな感じです。
リポジトリ
仕組み
Twilogをスクレイピングして、CircleCIのcronの仕組を使って定期的(当日分は1時間おき、前日分は1日1回)にツイート数をグラフを更新しています。
スクリプトはRubyで書いていますが、定期実行部分に関してはCircleCIとDockerイメージだけで完結しているので実行環境にRubyをインストールする必要はありません。
Twilogを使ってる理由
- 特定の日時のツイート数だけを取得するだけならTwitter APIよりTwilogからとってくる方が早いし楽
- Search APIでも日付を絞り込むことはできるのだが、自分の経験上たまに検索結果が取れなくなることがあるのであまり信用してない *1
- 特定のユーザのツイートを取得するならuser timeline APIを使うのが確実なのだが直近3200件分しかとれない。
- 当日分と前日分くらいなら問題ないんだが、それでもuser timetimeで特定の日付を絞ってツイートを取得するのは若干面倒
- 過去分を一括投入しようとするとRateLimitに引っかかってしまう
- Twilogであれば https://twilog.org/sue445/stats に全期間(自分が登録した以降全部)のツイート数が入ってるので、何回もAPIを叩くよりもhtmlを1枚スクレイピングする方が圧倒的に楽と判断
- Twitter APIだと自分でアプリを作る必要があってお手軽感がない
- 過去分投入だけなら公式のツイートダウンロードでもいいんだけど、OSSとして公開しようとすると英語で説明を書くのが面倒だしスクリプト化しづらい
使い方
基本的には https://github.com/sue445/tweet_pixels/blob/master/README.md に書いてる通りにコマンドを実行するだけ。
最初のPixela登録とグラフ作成だけローカルで実行する必要があります。
Rubyでやりたい場合は https://github.com/sue445/tweet_pixels をforkしてclone後に下記のようなコマンドを実行してください。
cp .env.example .env vi .env bundle install --path=vendor/bundle ./bin/console
# register @client.create_user(agree_terms_of_service: true, not_minor: true) # create graph @graph.create(name: "Daily tweets", unit: "Tweets", type: "int", color: "sora")
他言語の場合は同じようなことをよしなにやってください。
直近1年分のツイートを一括投入する場合は bundle exec rake update_multi
を実行
グラフ作成後はCircleCIのEnvironment Variablesに
TWITTER_ID
PIXELA_USERNAME
PIXELA_TOKEN
PIXELA_GRAPH_ID
を登録してください。
Tips
CircleCIでボットを運用する時のノウハウとして、Chat Notificationsで普段使いのチャット(自分の場合Slack)を登録しておくとエラー時にすぐに気付けるので便利です。
1時間に1回にSlackに通知がくると逆にウザいので、自分はFixed/Failed Only(ビルドが失敗から成功に戻った時と、ビルドが失敗した時のみ通知)をよく使っています。
所感
今回のに限ったことじゃないんだけど、CircleCIの設定ファイルに実行環境(利用するDockerイメージ)やcronの設定も含めることができるので、GitHubのリポジトリでボットの自動実行環境もセットで配布できるのすっごい便利だ。。。
*1: 過去に実際、一時期自分のツイートだけがSearch APIで取れなくなる事象がありました https://twitter.com/sue445/status/897968605567926272