Perl

第9章正規表現

前のページ　次のページ

章の目次

正規表現の概要
　　正規表現の構文
正規表現のメタ文字
　　正規表現のメタ文字の一覧
　　マッチ変数の一覧
　　量指定子の一覧
　　アンカーの一覧
　　テキスト修飾子の一覧
　　ワード境界の罠
　　正規表現のエスケープシーケンス
　　エスケープシーケンスの一覧
パターンマッチ演算子
　　リストコンテキストにおける正規表現
　　 m// 演算子のオプションの一覧
置換演算子
　　 s/// 演算子用のオプション
　　 tr/// 演算子のオプションの一覧
拡張構文
　　拡張構文の一覧
正規表現のテクニック
　　正規表現を使わない
　　 s/// 演算子の代わりに tr/// を使う
　　半角数字をチェックする
　　文字列の末尾が改行かをチェックする

正規表現の概要

正規表現は、Perl の中で最も重宝する機能のひとつです。正規表現にはテキスト処理のための様々な機能があり、文字列の中から特定のパターンを見つけ出したり、置換したりすることができます。

正規表現の基本的な使用方法

たとえば、$str という変数に格納したデータの中から、「A」で始まって途中は何があるかわからないが最後が「E」という文字列を探したい場合､次のように記述することで、条件にマッチする文字列を見つけることができます。

$str =~ /A.*E/;

上記では、ドット( . )が改行以外の1文字を表し、アスタリスク( * )がその任意の文字の0回以上の繰り返しを意味します。このように、正規表現において特殊な働きを持った文字を正規表現演算子、またはメタ文字と呼びます。また、=~ はパターン結合演算子と呼ばれ、「左辺の値から右辺の値を検索する」という意味があります。

正規表現は、左辺の VALUE に格納されている文字列から右辺の PATTERN がマッチするかをチェックします。VALUE のなかに PATTERN がマッチすれば 1 （TRUE）を返し、マッチしなければ "" （FALSE）を返します。通常、VALUE には変数を指定しますが、指定しない場合はデフォルトで特殊変数 $_ の値が使われます。
　正規表現の最後に付加している g、 i、 m、 o、 s、 x はオプションです。これらは必要に応じて使うことができます。

次の例では、変数　$method に格納された文字列から大文字の「GET」と小文字の「get」を探します。正規表現の最後にある i オプションは、大文字・小文字を区別しないように指示しています。

$method =~ /GET/i;

正規表現の構文と、演算子については、m演算子で詳しく説明しています。

パターンマッチ演算子の否定形

VALUE !~ /PATTERN/gimosx

この構文は構文1とは逆に、VALUE に PATTERN がマッチしない場合に 1 （TRUE）を返し、マッチすれば "" （FALSE）を返します。

置換演算子

VALUE =~ s/PATTERN/REPLACE/egimosx

置換演算子の構文は s/PATTERN/REPLACE/ となっています。この s 演算子は、指定された PATTERN を見つければ、それを REPLACE で置き換えます。

変数を使ったパターン

PATTERN には、変数が含まれていてもよく、パターンが評価されるごとに変数が展開されます。特殊変数の$) と $| は文字列の終わりを調べるパターンであると解釈されるので、展開されません。

/<IMG $atr>/;

メタ文字	説明
\	直後の文字をエスケープする \ を使って後続の文字をエスケープすると、メタ文字をリテラルとしてマッチさせることができます。
.	ワイルドカード。改行文字を除く任意の1文字にマッチただし、後述するパターンマッチ修飾子 /s が使われる場合は改行も含めて全てにマッチします。
[a-z0-9]	[　]の中の任意の1文字にマッチ（例では、小文字または数字の任意の1文字）文字の間にハイフン( - )を挟み、文字列の範囲を表すことができます。たとえば、[12345] の様に規則的に連続した文字列は、[1-5] と表記できます。
[^a-z0-9]	[　]の中にない任意の1文字にマッチ（例では、小文字または数字以外の任意の1文字）チルダ( ^ )は必ずパターンの先頭に置きます。先頭以外にある ^ はリテラルと解釈されます。
\d	数字の1文字にマッチ [0-9] と同じです。
\D	数字以外の1文字にマッチ [^0-9] と同じです。
\w	アルファベットまたは数字（単語）の1文字にマッチ [a-zA-Z_0-9] と同じです。
\W	アルファベットと数字以外（単語以外）の1文字にマッチ [^a-zA-Z_0-9] と同じです。
\s	空白文字にマッチスペース、タブ、改行になります。[ \n\r\f\t] と同じです。
\S	空白文字以外にマッチ [^ \n\r\f\t] と同じです。
A\|B\|C	選択一致パターン（例では、A、B、Cのいずれか1つの文字にマッチ） \| の前後あるどちらかの正規表現にマッチします。
（x）	文字列をグループ化カッコ内のパターンにマッチした文字列は記録されます。
(?:…)	後方参照を行わないグループ化 \1 や \2 を使用した後方参照が出来ません。
\1 または $1	グループ化にマッチした文字列を参照

メタ文字	説明
$&	文字列の中でパターン全体がマッチした部分を参照
$`	文字列の中でマッチに先行する部分を参照
$'	文字列の中でマッチに続く部分を参照
$+	最後にマッチした文字列を返す

メタ文字	説明
x?	0個または1個の x にマッチ
x*	0個以上の x にマッチ
x+	1個以上の x にマッチ
x{m,n}	m 個以上、n 個以下の x にマッチ次のような使い方があります。 {m} m 回の繰り返しにマッチ {m,} m 回以上の繰り返しにマッチ {m,n} m 回以上、n 回以下の繰り返しにマッチ

メタ文字	説明
^	行頭
$	行末
\A	文字列の先頭
\b	ワードの区切りここでのワードとは、英数字とアンダースコア( _ )です。
\B	ワードの区切り以外
\G	文字列の先頭、もしくは修飾子 g がついたパターンマッチングが終了した場所を記憶しておき、そこにマッチ
\Z	文字列の最後

メタ文字	説明
\a	アラーム
\c	制御文字
\e	エスケープ文字
\f	改ページ（form feed） ASCII での \x0c を表します
\n	改行（newline） ASCII での \x0x を表します
\r	復帰文字（return） ASCII での \x0d を表します
\t	タブ（tab） ASCII での \x09 を表します
\0	ヌル文字
\12	8進数の ASCII 値にマッチ
\x811	16進数の ASCII 値にマッチ

メタ文字	説明
\E	大文字、小文字変換の終了
\l	次の文字を小文字に変換
\L	\E までを小文字に変換
\Q	\E までのパターン指定メタ文字の意味を打ち消す
\u	次の文字を大文字に変換
\U	\E までを大文字に変換

オプション	意味
g	繰り返してマッチ
i	英字の大文字、小文字を区別しない
m	文字列を複数行として扱う
o	PATTERNの評価を 1回だけにする
s	ワイルドカードのドット( . )が改行にもマッチするようにする
x	拡張正規表現を使用する

オプション	意味
e	式の右側の評価を行なう
ee	式の右側の評価を行い、実行後の戻り値を再度評価する
g	繰り返し置換
i	大文字、小文字を区別しないで検索
m	文字列を複数行として扱う
o	パターンの評価を 1 度だけにする
s	ワイルドカードのドット( . )が改行にもマッチするようにする
x	拡張正規表現を使用する

オプション	意味
c	検索リストに指定された文字以外を検索
d	置換されなかった文字を削除
s	置換後の文字が重複している場合は削除して1つにつめる

メタ文字	説明
(?# コメント)	正規表現内にコメントを入れる際に使います。シャープ（#）以降の文字列はコメントとして解釈され、マッチングの対象から外れます。
(?:...)	( ... ) と同様にグループ化します。ただし、後方参照用の記録をしません。
(?=式)	前方一致検索です。たとえば、 /\w+(?=\t)/ は、単語に続いてタブがあるものにマッチしますが、$& にはタブは含まれません。
(?!式)	後続の文字列が式に一致しなければマッチします。たとえば、/\w(?!\t)/ は、単語の後ろにタブがないものにマッチします。
(?ismx)	正規表現内にパターンマッチ修飾子を埋めみます。部分的に「大文字小文字の区別を行う」などの指定に役立ちます。部分的にパターンマッチ就職子の効果を与えたいとき、その部分の前に指定します。たとえば、 /O(?i)ne/ は、One 、ONE など、O に続く文字 er の大文字小文字を区別しません。(?i)修飾子の働きをオフにしたい場合は（?i‐...）のように、‐ “ダッシュ”記号をつけます。
(?<=式)	後方一致検索先行する文字列が式に一致すればマッチします。
(?<!式)	後方一致検索の否定形先行する文字列が式に一致しなければマッチします。

Perl

第9章 正規表現

章の目次

パターンマッチ演算子

パターンマッチ演算子の否定形

置換演算子

文字にマッチさせる

選択パターン

文字集合

文字列のグループ化と後方参照

マッチ変数

マッチ変数の使い方

選択一致パターンとグループ化の組み合わせ

量指定子

基本的な繰り返しパターン検索

a が少なくとも1回、最大でも3回繰り返すパターンを検索

a が3回繰り返すパターンを検索

a が少なくとも1回以上続くパターンを検索

アンカー

行頭のAを検索

行末のZを検索

メタ文字をエスケープする

スペースのメタ文字

テキスト修飾子

$_ に格納された文字列から日付部分のみを取り出す

m// 演算子のオプション

g オプション－繰り返してマッチ

カッコを含んだ検索パターン

配列でgオプションを指定

whileループの条件部に使う

i オプション－英字の大文字、小文字を区別しない

m オプション-文字列を複数行として扱う

o オプション－PATTERNの評価を 1回だけにする

s オプション-ワイルドカードのドット( . )が改行にもマッチ

x オプション-拡張正規表現を使用する

s/// 演算子の応用

e オプション-REPLACE を式として評価

c オプション(Complement)

s オプション(Squeeze)

d オプション(Delete)

tr/// 演算子の様々な使い方

正規表現を速くするコツ

Recent Posts

amazon 記事検索

Recent Posts

PR広告のご案内

リズムの著書

サイト構築の受注

お気楽にウェブの技術を勉強できるステキサイトですから。

第9章正規表現