Requestsで日本語を扱うときの文字化けを直す

Python

環境

Python: 3.5
Requests: 2.11.1

概要

Requestsを使って日本語ページを取得したときに表示すると文字化けが起こる。
今回、自分の場合はページ側のエンコードがShift-JISの場合に起こっていた。

import requests

response = requests.get('適当な日本語ページ')
print(response.encoding)

で調べると、ISO-8859-1が返ってきていた。
どうも、文字コードがうまく取れてない場合に適当にかえしてる？？

解決

import requests

response = requests.get('適当な日本語ページ')
response.encoding = response.apparent_encoding  # この行を追加

apparent_encodingを呼び出すと、どうやらライブラリ使って、ちゃんと文字コードを判定するらしい。
今回の場合は、これで文字化けしなくなった。

参考

ユーザー登録して、Qiitaをもっと便利に使ってみませんか。

あなたにマッチした記事をお届けします
ユーザーやタグをフォローすることで、あなたが興味を持つ技術分野の情報をまとめてキャッチアップできます
便利な情報をあとで効率的に読み返せます
気に入った記事を「ストック」することで、あとからすぐに検索できます

より詳しく

nittyan

@nittyan

Pythonが好きです。Pythonで仕事してません。仕事で使えるであろうレベルの言語は、Java、Python。

RequestsでSessionモード by mSpring

Requests+lxmlでXPathを使ってみたい by kura_mod

若手エンジニアが夢テクノロジーに集まる理由とは PR 夢テクノロジー

この記事は以下の記事からリンクされています

Pythonで手軽に始めるWebスクレイピングからリンク9 months ago

nekoサブドメインでにゃーんと返す実装をするからリンク1 year ago

@Yukiya025

2018-10-17 10:32

@nittyan さん、こんにちは! 文字化けの対処方法がわからずTeratailで質問したときにこのページを紹介してもらってすごく助かりました!
ありがとうございました
https://teratail.com/questions/152505

@nittyan

2018-10-17 14:34

@Yukiya025 お役に立てたのならよかったです。
けっこう昔の記事なんですが、ちょこちょこ「いいね」もらうんで、みんな困ってるんですかね・・・

@Yukiya025

2018-10-20 00:55

nittyanさん
はい、困ってましたf^^; 文字化けしてたら取れるものも取れませんし
ちなみに完成したスクレイピングコードはこちらです
O'Reilly Japanの書籍カタログをCSVファイルに出力します
https://github.com/Yukiya025/CommerceScraper

あなたもコメントしてみませんか :)

ユーザー登録

すでにアカウントを持っている方はログイン

記事投稿イベント開催中

Azure IoTに関する記事を投稿しよう！

2021/09/10~2021/10/09

Qiita 10周年記念イベント - 10年前の自分に伝えたい、勉強しておきたかった技術

2021/09/09~2021/09/30

すべて見る