［入門］関数プログラミング―質の高いコードをすばやく直感的に書ける！

第5章　パーサコンビネータ―小さなパーサを組み合わせて大きなパーサを作る

2015年3月6日

初出：WEB+DB PRESS Vol.67（2012年2月24日発売）

山本和彦

この記事を読むのに必要な時間：およそ 4 分

この章では，関数型の至宝であるコンビネータライブラリについて説明します。

コンビネータとは何か？

この章でいうコンビネータとは，ある型の部品と部品を組み合わせて，同じ型のより大きな部品を作るための関数のことです。たとえば，パーサのコンビネータライブラリは，パーサを組み合わせるための各種コンビネータを提供しており，簡単にパーサを作成できます。コンビネータライブラリは，言語内DSL（Domain Specific Language）と表現してもよいでしょう。

関数型では，パーサに加えて，データを文字列でわかりやすく表示するプリティプリンタ，SQL，XML，ハードウェア記述，そしてデリバティブ（金融商品）記述，楽譜記述など多様なコンビネータライブラリが作られ，実際に使われています。この章では，パーサのコンビネータライブラリを取り上げます。

CSVのパーサ

たとえ簡潔でも，実用的でないパーサの例だと興味が持てないでしょうし，一方実用的であっても長いと理解が難しくなるでしょう。そこで，実用的で手頃な大きさで，またみなさんが馴染み深いと思われるCSVのパーサを作ることを考えましょう。

CSVのBNF

CSVのBNF（注1）は，RFC 4180で定められています（注2）。リスト1に，説明を簡単にするために1行目だけ手を加えたCSVのBNFを示します。

リスト1　CSVのBNF

csv = 1*(record CRLF)   （1）
record = field *(COMMA field)   （2）
field = (escaped / non-escaped)   （3）
escaped = DQUOTE *(TEXTDATA / COMMA / CR / LF /
2DQUOTE) DQUOTE   （4）
non-escaped = *TEXTDATA
TEXTDATA = %x20-21 / %x23-2B / %x2D-7E
COMMA = %x2C
CRLF = CR LF
CR = %x0D
LF = %x0A
DQUOTE = %x22

*，1*，2はそれぞれ，0回以上，1回以上，2回の繰り返しを意味します。%xは，ASCII文字を16進数表記していることを表します。

注1）: Backus-Naur Form。文法を定める言語のことです。
注2）: RFCで用いられるBNFは，ABNFというBNFの亜種です。

csv，record，fieldの意味

これを見ると，csvとはrecordの集まりであり，recordとはカンマで区切られたfieldの集まりであることがわかります。次に例を示します。

boo,foo,woo
goo,zoo,qoo

たとえば，全体がcsv，boo,foo,wooがrecord，fooがfieldに当たります。これはみなさんの理解通りでしょう。

fieldの内部

難しいのはfieldです。データ中にカンマや二重符号が出てこない場合はそのままでよいのですが，出てくる場合は二重符号で囲みます。二重符号でカンマを囲むと，区切り文字のカンマと区別がつきます。

boo,"foo,woo",goo

一方，二重符号に囲まれた二重符号は，囲みなのか二重符号文字そのものなのか区別がつきません。そこで，二重符号を重ねます。

boo,"foo""woo",goo

この例の"foo""woo"は，foo"wooを表します。

正規表現でCSVパーサを実装する場合

みなさんは，CSVパーサを正規表現で実装したくなるかもしれません。しかし，CSVパーサを正規表現で作るのは，とても難しいことが知られています。『詳説正規表現第3版』（注3）の5.4.2項には，CSVパーサを実装した例が載っていますので，興味があれば見てください。

正規表現がパーサを作るための技術としてあまり適していない理由は2つあります。まず第一に，正規表現が入れ子構造を表現できないことです。第二に，正規表現は部品化できないため，正規表現が長くなりがちで，保守しにくくなることです。

関数型言語でも正規表現のライブラリは提供されています。しかし簡単な問題であればリスト操作で解決できますし，複雑な問題だとパーサを書きます。そのため，正規表現はあまり使われていません。

注3）: Jeffrey E.F. Friedl著，株式会社ロングテール／長尾高弘訳，オライリー・ジャパン，2008年

パーサコンビネータParsecでCSVパーサを実装

では，CSVパーサをコンビネータライブラリを用いて実装してみましょう。今回は，Haskellのライブラリの中で，とても有名なパーサのコンビネータライブラリParsecを使用します。Parsecを用いると，BNF通りにパーサを作っていけば，魔法のように目的のパーサができあがります。

これから示すコードは，csv.hsというファイルに記述してください（注4）。そのファイルの先頭には，必要なライブラリを読み込むために，次のコードを入れます。

import Control.Applicative ((<*),(*>))
import Text.Parsec
import Text.Parsec.String

今から，CSVのBNFを元にトップダウン的に実装していきます。そして，最後に動かしてみましょう。

注4）: WEB+DB PRESS Vol.67サポートサイトでも完成形を公開しています。

csvを実装する

まず，BNFのリスト1（1）の部分を実装します。このパターンにはコンビネータendBy1を使います。endBy1は，第二引数で終端される第一引数のパーサを1回以上繰り返すコンビネータです。

csv :: Parser [[String]]
csv = endBy1 record crlf

csvの型を見てください。Parserとは，パーサというコンテナ型を表しています。このようにパーサをコンテナとして実装するのが常套手段です。このParserというコンテナ同士をくっつけるのがParsecのコンビネータです。

内側の型は，Stringのリストのリストになっています。Stringとは[Char]の別名です。外側のリストが行を，内側のリストが列を意味します。つまり，CSVファイルをパースした結果は，文字列を要素に持つ二次元のリストになります。

recordとcrlfはこれから実装するパーサです。

recordを実装する

次はリスト1（2）に従いrecordを書きましょう。このパターンには，コンビネータsepBy1が利用できます。sepBy1は，第二引数で区切られる第一引数のパーサを1回以上繰り返すコンビネータです（注5）。

record :: Parser [String]
record = sepBy1 field comma

注5）: 1回の場合は区切り文字パーサは使われません。

fieldを実装する

次はfieldです。BNFはリスト1（3）です。/の部分を，選択を表すコンビネータ<|>に単純に置き換えるだけです。

field :: Parser String
field = escaped <|> nonEscaped

関数プログラミング, 関数型言語

著者プロフィール

山本和彦（やまもとかずひこ）

株式会社IIJイノベーションインスティテュート（IIJ-II）技術研究所主幹研究員。

開発した代表的なオープンソフトにMew，Firemacs，Mightyがある。『プログラミングHaskell』や『Haskellによる並列・並行プログラミング』の翻訳者。職場ではHaskell，家庭では3人の子供と格闘する日々を送っている。

web：http://www.mew.org/~kazu/

twitter：@kazu_yamamoto

バックナンバー

［入門］関数プログラミング―質の高いコードをすばやく直感的に書ける！

第5章　パーサコンビネータ―小さなパーサを組み合わせて大きなパーサを作る
第4章　木構造とハッシュ―平衡二分探索木「赤黒木」で知る豊かなデータ型
第3章　リストと文字列―最長重複文字列問題で知るリストプログラミング
第2章　関数プログラミングのパラダイム―命令プログラミングと何が違うのか
第1章　関数プログラミングは難しくない！―初めて学ぶ人にも，挫折した人にもきちんとわかる

トラックバック

このエントリのトラックバック URI

コメントの記入

お名前
メールアドレス
タイトル
コメント

ピックアップ

サイバーエージェントを支える技術者たち: 「アメーバブログ」などを展開するAmebaを運営するサイバーエージェントの技術者に，多くの魅力的なサービスを支える秘密を伺いました。
開発スピードに限界を感じたときの処方箋: 「JIRA」をはじめとするアトラシアンのツール群。多くのオープンソースソフトウェアを継続して提供する支えとなっている使い易さを探ってみます。
Webプログラマ／デザイナが本気で遊べるガジェット登場！: auから鳴り物入りで登場したスマートフォン「Fx0 LGL25」は，Mozillaが開発した「Firefox OS」を搭載したスマートフォンです。
OpenStack Days Tokyoの歩き方: 2015年2月3，4日に開催される「OpenStack Days Tokyo 2015」。本記事では関係者の方々に見どころと意気込みをお聞きしました。
OpenStack Days Tokyo：ミラクル・リナックスが考えるクラウド管理の決め手: 「OpenStack Days Tokyo 2015」でミラクル・リナックスが提案するOpenStackの運用管理の新しい形を紹介します。
あなたのスマホアプリ開発レベルはどのぐらい？スマ検を受けよう: スマートフォンの普及とともに高まるアプリ開発者のニーズに合わせて開発された「スマートフォンアプリ開発技術検定試験」に関して解説します。
エンジニア向けQAサイト「teratail」とは: 昨年7月にオープンした新たなWebサービス（というよりメディア）の立ち上げ秘話やサービス内容をあますところなく紹介します。

その他の連載

［入門］関数プログラミング―質の高いコードをすばやく直感的に書ける！: 本特集では，これから始める人，そしてこれまで学ぼうとして挫折した経験がある人のために，関数プログラミングを理解するポイントを丁寧に解説します。
MilkcocoaでBaaSを体験！～バックエンドの仕組みと使い方～: 本特集はBaaSを紹介し，Milkcocoaを使用して，BaaSを利用したアプリケーション開発について紹介いたします。
Ubuntu Weekly Recipe: Ubuntuの強力なデスクトップ機能を活用するための，いろいろなレシピをお届けします。
Away3D TypeScriptではじめる3次元表現: JavaScriptライブラリ「Away3D TypeScript」を用いた，3次元表現を解説します。
MySQLをチューニング，そしてスケールアップ／スケールアウトへ: 本連載では，現在MySQLを利用していて，チューニングやより大規模な環境に向けた構成の拡張を体系的に説明することを目的としています。
はまちちゃんとわかばちゃんのREADER'S FORUM―読者のページ: WEB+DB PRESS特別編集部員，さわやか笑顔のスーパーハカーはまちちゃんとネット大好き14歳わかばちゃんが，毎号，読者の皆さんから寄せられたおたよりを紹介します。皆さんの日頃の悩みにも答えちゃいますよ。
RedPenを使って技術文書を手軽に校正しよう: RedPenという自動文書検査ツールの紹介と，このRedPenを利用した技術文書の校正方法について説明します。
玩式草子─ソフトウェアとたわむれる日々: Plamo Linuxのメンテナンスの傍ら，Linuxやオープンソースソフトと日々を過ごす著者が，その魅力とつきあい方を，エッセイ風味でお届けします。