形態素解析によって、文を構成する単語が確定したのを受けて、第二段階の構文解析が行なわれる。
ここでは、ボトムアップ型の構文解析の最も基本的な方法であるCYK法について説明する。
例えば、主語(名詞)+動詞で文が出来る事を、名詞+動詞→文、等と書き(文→名詞+動詞、と逆方向に書く場合も多い)、このような規則を句構造規則という。
日本語では、例として以下のような句構造規則が考えられる。
「望遠鏡で(を使って)泳ぐ」は意味的には全く変だが、構文解析上では正しい句と看做される(次の意味解析の段階で除外される)。
また、「泳ぐ彼女」の「泳ぐ」は動詞連体形だが、ここでは簡単に動詞としてある。現在形、過去形の区別もここでは必要ない。
「動詞」「名詞句」といった品詞を指す記号(文字列)を非終端記号、「見た」「望遠鏡」のような具体的な単語を終端記号と呼んで区別する。
チョムスキー標準形(の文法)は、二つの非終端記号から一つの非終端記号が得られるか、一つの非終端記号から一つの終端記号が得られる規則だけから成る文法である。
ここでは非終端記号を大文字、終端記号を小文字で表記している。二語の連結は+ではなくカンマで表現し、向きは合成後→合成前である。
チョムスキー標準形では、「犬(名詞)+と(助詞)+猫(名詞)」→「犬と猫(名詞句)」のような、一対三等の関係を記述出来ないように見えるが、三段目のように二つの規則に分解する事で記述可能となる。
CYK法は、チョムスキー標準形の文法を対象に構文解析を行なう。
三名の開発者の頭文字で名付けられたこの方法は、図のようなCYK表を用いる。左下に階段状に、単語を並べる。各マスには、縦横の座標がある。
まず、縦横の座標が一致する一番下のマスに、各単語に対応する初期の品詞を入れる。次に、左と下に初期の品詞を持つ赤矢印の通るマス目について検討を加える。
ここで、例えば一番左上(1,2)について見ると、左の(1,1)が名詞で下の(2,2)が助詞である。この二つを、合成して出来る句構造規則があるかを調べる。
上記の規則の中に、名詞+助詞→名詞句があるので、(1,2)には名詞句が入る。次の(2,3)について見ると、助詞+動詞で合成される規則はない。従って、空欄とする。
同様に、(3,4)、(4,5)、(5,6)についても埋めていく。次に、斜めの赤矢印が通るマスへの検討に移る。
最初に検討するマス群は、左隣と下隣が合成規則にあるかを見れば良かったが、二番目以降に検討するマス群は、以下のような方法による。
例えば、(1,5)を検討する場合は、図の同じ色の位置関係にある二つのマスの品詞が合成規則にあるかを見て、あれば合成結果を記載する。複数の規則が該当する場合は、(1,5)に複数の合成結果を書き込む。
どうしてそうなるかは、この表を少し左側に倒してみて、文章を底辺に、山を構成するように見ると納得出来るだろう。
例えば(1,1)が他と結合せずに単独で残っている場合、他と結合して(1,5)に収まるのであれば、結合する相手は(2,5)の位置で纏まっていなければならない。
この方法で、先程の赤矢印のマス群を埋めると以下のようになる。何処と何処の結合であるかは、緑の矢印で示してある。空欄は当然、句構造規則には無い。
ここで、(1,3)、(4,6)は名詞句+動詞が来て、名詞句+動詞→動詞句、名詞句+動詞→文の二つの規則が存在するため、両方の結果が書かれる。
しかし、CYK表では一番右上以外のところに文が来た場合は(全ての単語を使わずに文になってしまうので)、その規則は適用しない。従って、ここは動詞句となる。
これを残る赤矢印の通るマス目について、順番に行なっていくと以下のようになる。
CYK法では、一番右上のマス(単語数をnとすると、(1,n)のマス)に「文」が来れば、構文解析成功、来なければ失敗となる。
この例では、最後の文を作る矢印の組が二つあった。一つは、(1,2)と(3,6)で作られる文、もう一つは(1,5)と(6,6)で作られる文である。
これは、この入力文と与えられた句構造規則で可能な構文木が二つ出来る事を示している。
最後に、文から単語の方の向きに、或るマスに至った矢印だけ抜き出すと構文木が出来る。ここでは二つの構文木を赤と青の矢印で示している(双方の共通部分は黒矢印)。
既に木の構造は見えているが、出来上がった二つの構文木を木らしく整えて並べると、以下のようになる。