Perl Hackers Hub

第28回　Perlの構文解析器の作り方と応用例（2）

2014年12月18日

初出：WEB+DB PRESS Vol.82（2014年8月25日発売）

五嶋壮晃

この記事を読むのに必要な時間：およそ 3 分

前回の（1）はこちらから。

字句解析器の作り方

（2）では，一般に字句解析器や構文解析器に利用されるパーサジェネレータツール（Yacc/Bison）を利用せずに，自分の手で字句解析器を作成する際に気をつけなければいけない点や設計方針について，Compiler::Lexerを開発した際に得られた知見をもとに解説します。

正規表現で処理するのは正解？

字句解析器や構文解析器を開発するときによく利用するものとして正規表現があります。正規表現は文字列処理を行ううえでとても有益ですが，言語処理系の場合はそうとも限りません。正規表現で表現できないシンタックスが存在する場合や同じ文字を何度も探索しなければならない場合は，正規表現ではなく，後述する1文字ずつ処理する方法をお勧めします。

正規表現で表現できないシンタックスが存在する場合

当然ながら，Perl 5のような複雑なシンタックスの場合，すべてを正規表現で処理することは難しいです。たとえば#があったら，それ以降は行末までコメントと判断してよいでしょうか。答えはノーで，正規表現のデリミタ（区切り文字）の場合や，文字列やヒアドキュメントの中に記述されている場合は無視しなければいけません。Perl 5にはほかにも，正規表現で記述することを考えるとぞっとするシンタックスが多く存在します。

もちろん，1つの正規表現で表現しきれない場合は，いったんスペースなどでソースを分解したあとに個別に適用するなど，段階的に正規表現を適用していく方法が考えられますが，次第にソースコードが複雑化し，保守しにくくなる原因となります。このため，正規表現を用いたパターンマッチによってトークンに切り出す方法は，あまりお勧めできません（PPIでも初めは正規表現で実装されていたそうですが，途中でパターンマッチによる解析に限界を感じ，書き直すことになったそうです）。

同じ文字を何度も探索しなければならない場合

1つの正規表現で表現できない場合，段階的に正規表現を適用する方法も考えられると説明しましたが，この方法だと同じ文字を何度も正規表現の適用対象にしてしまうことになり，実行パフォーマンスの観点から望ましくありません。パフォーマンスの面からも正規表現は避けるべきでしょう。

字句解析器の基本構成

本項では，字句解析器を構成する主なコンポーネントや用語について説明します。字句解析器の説明でよく登場する用語は次のようなものです。

トークン（Token）: 字句解析器によって切り出された文字列
カーソル（Cursor）: 現在処理している文字の位置を表す
スキャナ（Scanner）: デリミタの開始位置から終了位置までカーソルを進める（また，その間の文字列をトークンとして切り出す）
アノテータ（Annotator）: 切り出したトークンに解析情報を付加する

これらの用語を用いて字句解析器のテンプレートを表現すると，次のような擬似コードになります（擬似コードはC++言語をベースとして書かれています）。

std::vector<char *> token_array;
Scanner scanner;
// 字句解析器のメインループ
for ( ソースコードの終端まで，カーソルを1 文字ずつ進める) {
  // カーソルがある位置の文字を得る
  char current_char = get_current_char(cursor,
                                       source_code);
  switch (current_char) {
  case '\'': '"': // 文字列の開始デリミタの場合
      // スキャナによってcursor を進めつつ，
      // 文字列の終端を見つけたら，トークンに切り出す
      char *token = scanner.scanQuote(current_char,
                                      source_code,
                                      cursor);
      // 切り出したトークンをトークン列に加える
      token_array.push_back(token);
      break;
  ...
  default:
      break;
  }
}
Annotator annotator;
for (トークン列を端から端までなめる) {
  // トークンに解析情報を付加する
  annotator.annotateInformation(token);
}

前項で説明したように，正規表現ではなくカーソルを1文字ずつ進めながら解析することで，何度も同じ文字が解析対象にならず，ソースコードの見通しも良くなります。Compiler::Lexerは，まさに上記に近い構成で実装されています。

本項からは，字句解析器をスムーズに開発するための勘どころを解説します。

「デリミタ」の判断がすべて

字句解析器の目的は文字列から文字列を切り出すことです。文字列を切り出すためには，どの位置からどの位置までを切り出し対象とするか，つまりある文字がデリミタかどうかの判断が重要となります（（1）で示した擬似コードの中では，スキャナがこの役目を担っています）。

上記を踏まえ字句解析器が内部で行う処理を整理すると，

ソースコードを1文字ずつ読み進めながら，その文字があるトークンの開始デリミタかどうかを判断し，開始デリミタだと判断できた場合には，スキャナに開始デリミタとカーソル位置を渡して，終了デリミタまで読み進めてもらう
読み進める際には，文字をすべてバッファに貯めておき，終了デリミタに到着した際にトークンに切り出す

となります。これをそのままコードにすることで，シンプルなシンタックスであれば簡単に字句解析器を作成できます。

状態をできる限り持たない

「必要以上に状態を持たないようにする」というプログラミングの鉄則は，字句解析器を作成するうえでも重要です。具体的には，「デリミタかどうかを判断するために，状態変数をなるべく使わないようにする」ことが重要となります。たとえば文字列や空白の終了デリミタを探す際に状態変数を使う必要はないでしょう。

しかし，Perl 5では次に示すヒアドキュメントの処理などが状態を持たざるをえないので，複雑になりがちです。

my $a =<<HERE_DOCUMENT . $ext_string;
… document …
HERE_DOCUMENT

上記のヒアドキュメントを処理する場合，<<HERE_DOCUMENTを解析した際に，ヒアドキュメントの開始フラグを保持しつつ，以降の解析を続けなければなりません。そのうえで，改行文字が現れた際に保持しておいたフラグと照らし合わせ，それ以降をヒアドキュメントと判断するという処理になります。

このようなやむを得ない場合を除き，なるべく状態変数を使うことは避けましょう。

Perl, プログラミング言語, 構文解析器, 言語処理, 字句解析器

著者プロフィール

五嶋壮晃（ごしままさあき）

2012年株式会社ミクシィに入社後，開発者のための開発などを行うたんぽぽGに所属。

その後投資事業本部に移り，株式会社ノハナの開発サポートとして，アプリ開発やシステム開発などを幅広く担当している。

一方，趣味で高速なYet Another Perlであるgperlを開発しており，他にもPerl 5の字句解析器・構文解析器であるCompiler::Lexer/ParserやPerlでiOSアプリを書けるようにするPerlMotionなどのプロダクトを開発中。インフラからアプリ開発まで幅広くカバーできるエンジニアを目指し，精進の日々をおくっている。

Blog：http://goccy54.hatenablog.com/

バックナンバー

Perl Hackers Hub

バックナンバー一覧

トラックバック

このエントリのトラックバック URI

コメントの記入

お名前
メールアドレス
タイトル
コメント

ピックアップ

サイバーエージェントを支える技術者たち: 「アメーバブログ」などを展開するAmebaを運営するサイバーエージェントの技術者に，多くの魅力的なサービスを支える秘密を伺いました。
開発スピードに限界を感じたときの処方箋: 「JIRA」をはじめとするアトラシアンのツール群。多くのオープンソースソフトウェアを継続して提供する支えとなっている使い易さを探ってみます。
RAD Studio XE7でアプリをマルチデバイス化: 本記事では，特徴的なソフトウェア開発環境である，エンバカデロ・テクノロジーズのRAD Studioについて解説いたします。
クラウド時代だからこそベアメタルをオススメする理由: 利便性とパフォーマンスを両立した「ベアメタルクラウド」について，どこよりも深く詳しく解説していきます！
エンジニア向けQAサイト「teratail」とは: 今年7月にオープンした新たなWebサービス（というよりメディア）の立ち上げ秘話やサービス内容をあますところなく紹介します。
OSS開発に使えるMonacoの魅力: Visual Studioの最新版と，新たな開発ツールVisual Studio Online "Monaco"に注目し，改めて開発ツールの必要性などを紹介します。

その他の連載

きたみりゅうじの聞かせて珍プレー: ソフトウェア開発の現場で体験したトホホな失敗，思わずうなる珍プレーをきたみりゅうじ氏が四コママンガで紹介。みなさんからの投稿もお待ちしてます！
Perl Hackers Hub: 本連載は，第一線のPerlハッカーが回替わりで，Perlの旬な技術について解説していきます。
Ubuntu Weekly Recipe: Ubuntuの強力なデスクトップ機能を活用するための，いろいろなレシピをお届けします。
『電網恢々疎にして漏らさず網界辞典』準備室！: とあるネット起業の1プロジェクトとして，ネットを通じて世界を網羅する辞典を作ることが始まった。それが「電網恢々疎にして漏らさず網界辞典」である。
LXCで学ぶコンテナ入門－軽量仮想化環境を実現する技術: 本連載では，この仮想化技術の中でも最近注目を集めている軽量な仮想化を実現する「コンテナ」と，その実装のひとつであるLXCを取り上げ，その使い方や開発の現状を紹介していきます。
エンジニアの生存戦略: Webエンジニアのキャリアにはどんな道があるのか。自身のキャリアを模索し続けるクックパッドCTOの舘野祐一氏が，先頭を走り続けるエンジニアたちを訪ねます。
ロクナナワークショップ NEWS & REPORT: Web制作に関する実践的な講座を開講している「Flashの学校ロクナナワークショップ」。本連載では，最新講座情報，セミナーイベントの開催情報やレポートを中心にお伝えてしていきます。
デジタルブランドマネジメント: デジタルはどのようにブランドに貢献することができるのか？デジタル一つ一つの要素がブランドに与える利益について検証していきます。