Python(pandas)でExcelファイル(xlsx, xls)の読み込み（read_excel）

pandasでExcelファイル（拡張子:.xlsx, .xls）をpandas.DataFrameとして読み込むには、pandas.read_excel()関数を使います。
pandas.read_excel — pandas 0.22.0 documentation

以下のxlsxファイルを例とします。
sample.xlsx
sheet1とsheet2の二つのワークシートを持ちます。sheet1の中身は以下の通りです。

 A B C one 11 12 13 two 21 22 23 three 31 32 33

A B C

one 11 12 13

two 21 22 23

three 31 32 33

PythonでのExcelファイルの扱いについては以下の記事を参照。

PythonでExcelファイル読み込み（使用ライブラリに注意）

PythonでExcelファイル読み込み（使用ライブラリに注意） PythonにはExcelファイル（.xls, .xlsx）を読み書き（入出力）するためのライブラリがいくつかありまが、読み込みか書き込みか読み書き両方 […]

この記事の目次

xlrdのインストール

pandas.read_excel()では内部でxlrdというライブラリを使っています。
xlrdはPythonでExcelファイル（.xlsx, .xls）の読み込み（入力）を行うためのライブラリです。

関連記事: PythonでExcelファイルを読み込み・書き込みしますxlrd, xlwtの使い方

xlrdがインストールされていない環境でpandas.read_excel()を呼ぶと、以下のようなエラーメッセージが表示されます。

ImportError: Install xlrd >= 0.9.0 for Excel support

1	ImportError: Install xlrd >= 0.9.0 for Excel support

xlrdはpipでインストールできます。（環境によってはpip3）

$ pip install xlrd

1	$ pip install xlrd

pandas.read_excel()の基本的な使い方

第一引数ioにExcelファイルのパスまたはURLを指定します。

複数のシートがある場合、最初のシートのみがpandas.DataFrameとして読み込まれます。

import pandas as pd df = pd.read_excel('data/src/sample.xlsx') print(df) # A B C # one 11 12 13 # two 21 22 23 # three 31 32 33

import pandas as pd

df = pd.read_excel('data/src/sample.xlsx')

print(df)

# A B C

# one 11 12 13

# two 21 22 23

# three 31 32 33

例では.xlsxファイル（Excel2007以降のExcelファイル）を読み込んでいますが、.xlsファイル（Excel97-2003のExcelファイル）でも同様です。

読み込むシートを番号・シート名で指定: 引数sheet_name

引数sheet_nameで読み込むシートを指定できます。0始まりの番号かシート名で指定します。

df_sheet_index = pd.read_excel('data/src/sample.xlsx', sheet_name=1) print(df_sheet_index) # AA BB CC # ONE 11 12 13 # TWO 21 22 23 # THREE 31 32 33 df_sheet_name = pd.read_excel('data/src/sample.xlsx', sheet_name='sheet2') print(df_sheet_name) # AA BB CC # ONE 11 12 13 # TWO 21 22 23 # THREE 31 32 33

df_sheet_index = pd.read_excel('data/src/sample.xlsx', sheet_name=1)

print(df_sheet_index)

# AA BB CC

# ONE 11 12 13

# TWO 21 22 23

# THREE 31 32 33

df_sheet_name = pd.read_excel('data/src/sample.xlsx', sheet_name='sheet2')

print(df_sheet_name)

# AA BB CC

# ONE 11 12 13

# TWO 21 22 23

# THREE 31 32 33

複数のシートを読み込み

引数sheet_nameには0始まりの番号かシート名のリストを指定しますことも可能です。

指定した番号またはシート名がキーkey、そのシートのデータpandas.DataFrameが値valueとなる順序付き辞書OrderedDictとして読み込まれます。

df_sheet_multi = pd.read_excel('data/src/sample.xlsx', sheet_name=[0, 'sheet2']) print(df_sheet_multi) # OrderedDict([(0, A B C # one 11 12 13 # two 21 22 23 # three 31 32 33), ('sheet2', AA BB CC # ONE 11 12 13 # TWO 21 22 23 # THREE 31 32 33)]) print(type(df_sheet_multi)) # <class 'collections.OrderedDict'>

df_sheet_multi = pd.read_excel('data/src/sample.xlsx', sheet_name=[0, 'sheet2'])

print(df_sheet_multi)

# OrderedDict([(0, A B C

# one 11 12 13

# two 21 22 23

# three 31 32 33), ('sheet2', AA BB CC

# ONE 11 12 13

# TWO 21 22 23

# THREE 31 32 33)])

print(type(df_sheet_multi))

# <class 'collections.OrderedDict'>

OrderedDictは要素の順番を保持した辞書です。
辞書dictと同様にキーで値を参照できます。

print(df_sheet_multi['sheet2']) # AA BB CC # ONE 11 12 13 # TWO 21 22 23 # THREE 31 32 33 print(type(df_sheet_multi['sheet2'])) # <class 'pandas.core.frame.DataFrame'>

print(df_sheet_multi['sheet2'])

# AA BB CC

# ONE 11 12 13

# TWO 21 22 23

# THREE 31 32 33

print(type(df_sheet_multi['sheet2']))

# <class 'pandas.core.frame.DataFrame'>

すべてのシートを読み込み

引数sheet_name=Noneとすると、すべてのシートが読み込まれます。

df_sheet_all = pd.read_excel('data/src/sample.xlsx', sheet_name=None) print(df_sheet_all) # OrderedDict([('sheet1', A B C # one 11 12 13 # two 21 22 23 # three 31 32 33), ('sheet2', AA BB CC # ONE 11 12 13 # TWO 21 22 23 # THREE 31 32 33)]) print(type(df_sheet_all)) # <class 'collections.OrderedDict'>

df_sheet_all = pd.read_excel('data/src/sample.xlsx', sheet_name=None)

print(df_sheet_all)

# OrderedDict([('sheet1', A B C

# one 11 12 13

# two 21 22 23

# three 31 32 33), ('sheet2', AA BB CC

# ONE 11 12 13

# TWO 21 22 23

# THREE 31 32 33)])

print(type(df_sheet_all))

# <class 'collections.OrderedDict'>

シート名がキーkeyとなります。

print(df_sheet_all['sheet1']) # A B C # one 11 12 13 # two 21 22 23 # three 31 32 33 print(type(df_sheet_all['sheet1'])) # <class 'pandas.core.frame.DataFrame'>

print(df_sheet_all['sheet1'])

# A B C

# one 11 12 13

# two 21 22 23

# three 31 32 33

print(type(df_sheet_all['sheet1']))

# <class 'pandas.core.frame.DataFrame'>

ヘッダー、インデックスの指定: 引数header, index_col

ヘッダー（pandas.DataFrameの列名columns）、インデックス（pandas.DataFrameの行名index）を指定するには、それぞれ引数header, index_colに0始まりの行番号または列番号を渡します。Noneの場合はデフォルトの0始まりの連番となります。

df_header_index = pd.read_excel('data/src/sample.xlsx', header=None, index_col=1) print(df_header_index) # 0 2 3 # 1  # A NaN B C # 11 one 12 13 # 21 two 22 23 # 31 three 32 33 print(df_header_index.index) # Index(['A', 11, 21, 31], dtype='object', name=1) print(df_header_index.columns) # Int64Index([0, 2, 3], dtype='int64')

df_header_index = pd.read_excel('data/src/sample.xlsx', header=None, index_col=1)

print(df_header_index)

# 0 2 3

# 1

# A NaN B C

# 11 one 12 13

# 21 two 22 23

# 31 three 32 33

print(df_header_index.index)

# Index(['A', 11, 21, 31], dtype='object', name=1)

print(df_header_index.columns)

# Int64Index([0, 2, 3], dtype='int64')

読み込む列、読み込まない行を指定: 引数usecols, skiprows, skip_footer

すべての行・列を読み込む必要がない場合は、読み込む列、読み込まない行を指定しますことが可能です。

引数usecolsには読み込む列番号のリスト、引数skiprowsにはスキップします（読み込まない）行番号のリスト、引数skip_footerにはスキップします（読み込まない）末尾の行数を渡します。

df_use_skip = pd.read_excel('data/src/sample.xlsx', usecols=[0, 1, 3], skiprows=[1], skip_footer=1) print(df_use_skip) # A C # two 21 23

df_use_skip = pd.read_excel('data/src/sample.xlsx', usecols=[0, 1, 3], skiprows=[1], skip_footer=1)

print(df_use_skip)

# A C

# two 21 23

これらの引数もcsvファイルを読み込むread_csv()と同様です。

skip_footerはread_csv()ではskipfooterなのでご注意ください。

併せて、以下もご参考ください。

[Python]pandas-profilingで基礎集計が簡単に！

[Python]pandas-profilingで基礎集計が簡単に！今回は、[Python]pandas-profilingでDataFrameのプロファイリングについてご紹介します。機械学習をやっていると避けて通れ […]

Pythonの辞書（dict）のforループ処理（keys, values, items）

Pythonの辞書（dict）のforループ処理（keys, values, items）今回は、Pythonの辞書（dict）のforループ処理（keys, values, items）についてご紹介してみます。 P […]

Pythonのpandas.DataFrameで結合する（merge, join）

Pythonのpandas.DataFrameで結合する（merge, join）日付や名前などの共通のデータ列を持っている複数のpandas.DataFrameをその列の値に従って結合するにはpandas.merge […]

ということで、今回は、Python(pandas)でExcelファイル(xlsx, xls)の読み込み（read_excel）についてご紹介しました。

polkadot web design