Python　§１２　: グラフのためのデータ処理高速なファイル処理ができるpandas

2015-03-02 07:25:05
テーマ：Python

今日は雨。コロンの散歩もできないし、散髪に行くことにしました。

暇なので、pythonのデータ解析の情報収集をしていると、いろいろと知らないことが出てきました。それは、csvデータなどを読み込む方法として、csvモジョールよりも高速かつ簡単な方法があるとのこと。

それは、pandasモジョールを使う方法だそうです。ウェブの情報だと、numpyの読み込み方法より、10倍速そう。pandasの参考資料

本当かな？いっぺん試そう。

まずは、pandasモジュールのインストールから始めてみることにします。

インストールはこちらからどうぞ

私のpythonは3.4を使っているので「pandas-0.15.0.win32-py3.4.exe」をダウンロードしました。

これを実行してから、import pandas as pd　でインポートすると、pytzモジュールがないとエラーがでてしまいました。

コマンドラインから　pip install pytz　で無事にpytzモジュールｎインストールに成功。

（3月2日追記：piが使えるのであれば、最初から　pip install pandas とやればpytzも自動的にインストールされるようです。pipは使えるようにした方がいいですね。pipのインスト-ル方法はこちらのリンクでどうぞ）

いよいよテストプログラムですが、nekopuniさんのプログラムを使わせていただきました。
（nekopuniさんありがとうございます）→　こちらがnekopuniさんのブログページです。

テストコードは以下のとおりです。

#!Python3
# -*- coding: utf-8 -*-
import numpy as np #numpyライブラリー　数値計算
import pylab as plt
import csv
import pandas as pd
import time

#グラフタイトルのためのインポート文
from matplotlib.font_manager import FontProperties

csv.register_dialect('tab', delimiter='\t')
csv.register_dialect('comma', delimiter=',')

def csv_read(rfilename, dialect='comma'):
    #――――――――――――――――――――――――――――――――――――――――
    #　csv module でcsvファイルを読み込む
    #――――――――――――――――――――――――――――――――――――――――
    data1=[]
    data2=[]
    f = open(rfilename, 'rt')
    try:
        reader = csv.reader(f, dialect)
        for row in reader:
            data2.append(row)
    finally:
        f.close()
    #for w in data2:
    #    data1.append('\t'.join(w))
    return data1,data2

def csv_write(wfilename,data,dialect='tab'):
    #――――――――――――――――――――――――――――――――――――――――
    #　csv module でcsvファイルを読み込む
    #――――――――――――――――――――――――――――――――――――――――
    f = open(wfilename, 'wt')
    try:
        writer = csv.writer(f,quoting=csv.QUOTE_NONE,lineterminator='\n',dialect=dialect)
        for x in range(len(data)):
            writer.writerows([data[x]])
    finally:
        f.close()

   
def file_read_test():
    data1,data2=csv_read('csv_write.dat',dialect='comma')
    return data2

def file_write_test():
    xy=[]
    x=np.linspace(-np.pi,np.pi,2000000)
    for r in x:
        y=np.sin(r)
        xy.append([r,y])
    wfilename='csv_write.dat'
    csv_write(wfilename,xy,dialect='comma')    
    return xy
    
def pandas_read_test():
    
    filename='csv_write.dat'
    #------------------------------------------------------------------------------
    # Pandas - read_csv
    #------------------------------------------------------------------------------
    start = time.clock()
    data_pd = pd.io.parsers.read_csv(filename, header = None, float_precision = "high").values
    print ("Pandas - read_csv")
    print (type(data_pd))
    #print (data_pd)
    print ("Elapsed: ", time.clock() - start, "\n")
     
     
    #------------------------------------------------------------------------------
    # Numpy - loadtxt with object dtype
    #------------------------------------------------------------------------------
    start = time.clock()
    data_np1 = np.loadtxt(filename, delimiter = ",", dtype = object)
    print ("Numpy - loadtxt with object dtype")
    print (type(data_np1))
    #print (data_np1)
    print ("Elapsed: ", time.clock() - start, "\n")
     
     
    #------------------------------------------------------------------------------
    # Numpy - genfromtxt
    #------------------------------------------------------------------------------
    start = time.clock()
    data_np2 = np.genfromtxt(filename, delimiter = ",", dtype = None)
    data_np2 = np.array(data_np2.tolist(), dtype = object)
    print ("Numpy - genfromtxt with object dtype")
    print (type(data_np2))
    #print (data_np2)
    print ("Elapsed: ", time.clock() - start, "\n")
     
     
    #------------------------------------------------------------------------------
    # Numpy - genfromtxt with specified dtype
    #------------------------------------------------------------------------------
    start = time.clock()
    #data_np3 = np.genfromtxt(filename, delimiter = ",", dtype = ("S6", int, "S8", float, float))
    data_np3 = np.genfromtxt(filename, delimiter = ",", dtype = (float, float))
    data_np3 = np.array(data_np3.tolist(), dtype = object)
    print ("Numpy - genfromtxt with specified dtype")
    print (type(data_np3))
    #print (data_np3)
    print ("Elapsed: ", time.clock() - start, "\n"    )

if __name__ == "__main__":
    data=[]
    data=file_write_test()
    data=np.array(data)

    start = time.clock()
    data2=[]
    data2=file_read_test()
    data2=np.array(data2)
    print ("CSV - csv.reader")
    print (type(data2))
    print ("Elapsed: ", time.clock() - start, "\n"    )
    
    filename='csv_write.dat'
    pandas_read_test()    

    #plt.plot(data2[:,0],data2[:,1],'-go')
    #plt.show()

syntax2html

ちょっと長くなってしまいました。ごめんなさい。
このテストプログラムは、まずはcsvモジュールを使って、200万点のプロット用データを
生成します。サインカーブのデータを分割します。（51行目の分割数を変更すれば、もっと少ないデータ量のテストができます）

因みにこのデータは63MBもあります。

そして、出力データです。

Python 3.4.2 (v3.4.2:ab2c023a9432, Oct  6 2014, 22:15:05) [MSC v.1600 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
>>> ================================ RESTART ================================
>>> 
CSV - csv.reader
<class 'numpy.ndarray'>
Elapsed:  6.027110414965349 

Pandas - read_csv
<class 'numpy.ndarray'>
Elapsed:  3.4455248091177255 

Numpy - loadtxt with object dtype
<class 'numpy.ndarray'>
Elapsed:  17.62943580955951 

Numpy - genfromtxt with object dtype
<class 'numpy.ndarray'>
Elapsed:  16.889456515433466 

Numpy - genfromtxt with specified dtype
<class 'numpy.ndarray'>
Elapsed:  13.652675029340763 

>>>