[トップページへ戻る]
[索引]
[あ行]
[か行]
[さ行]
[た行]
[な行]
[は行]
[ま行]
[や行]
[ら行]
[わ行]
凡例
日本語版Wikipedia内の用語説明へのリンク
英語版Wikipedia内の用語説明へのリンク
アーリーアルゴリズム (Earley algorithm)
文脈自由文法に基づく構文解析アルゴリズム。ある非終端記号の直後に現われ得る終端記号を事前に予測することによって解析効率を改善している点が特徴。
IIS (Improved Iterative Scaling algorithm)
最大エントロピー法のパラメタを学習するアルゴリズム。
合図句 (cue phrase)
→「手がかり句 」
曖昧性 (ambiguity)
自然言語処理では、複数の解析結果が得られることを曖昧性があるという。例えば複数の語義がある場合は語義(選択)に曖昧性があるといい、かかり受け解析において複数の可能性がある場合は、かかり受けに曖昧性があるという。曖昧性は様々な処理レベルで存在し、曖昧性解消(ambiguity resolution, disambiguation)は自然言語処理の真髄とも言われる。
曖昧性解消 (disambiguation)
形態素解析や構文解析など、自然言語処理における諸問題において、解析結果の候補が複数得られることを「曖昧性を生じる」という。このとき、解析結果の候補の中から正しい解析結果を選び出すことを「曖昧性を解消する」という。
アジェンダ (agenda)
チャート法において次に行うべきタスクを管理するデータ構造。スタックで実現すれば深さ優先探索になるし、キューで実現すれば幅優先探索になる。
後入れ先出し (last in first out; LIFO)
最後に入れたデータが最初に取り出される方式のデータ格納法。スタック。
アブダクション (abduction)
ある事象が観察されたときに、その原因となる仮説を推し量ること。
アラインメント (alignment)
ある言語で記述されたテキストと別の言語の対訳を入力として、それぞれのテキストの対応する要素の対応付けをおこなうこと。対応付けの要素としては、段落、文、語など、さまざまな大きさのものが考えられる。同じ語族に属する言語間では、語単位の対応付けまで可能な場合があるが、英語-日本語間のように統語構造が異なる言語対では、語単位の対応付けまでおこなうのは困難な場合が多い。特に意訳されていると対応付けは困難となる。
Antonym (antonym)
対義語。関連用語=「WordNet 」
言い換え (paraphrase)
文が与えらたとき、それと同じ意味を持つ別の文を生成する処理。文内の一部の単語を同義語に置き換える処理、態の交替など構文構造を変換する処理、慣用表現の言い換え、平易な文への言い換えなど様々な種類がある。機械翻訳 の前処理、読解支援システムのための文章簡単化、質問応答システム 、要約 など様々な応用に貢献する。
EAGLES (Expert Advisory Group on Language Engineering Standards)
言語資源に関する標準化をおこなっているECのプロジェクト。テキストコーパス、コンピュータ用のレキシコン、文法フォーマリズム、評価、話し言葉の5つのワーキンググループに分れて活動している。ヨーロッパの各言語を対象としているので、言語にできるだけ依存しない標準化を目指している点が特徴である。たとえば、コーパスのタグ集合は、言語独立な部分と言語依存の部分を区別して階層化する工夫をしている。
EDR辞書 (EDR dictionary)
1986年から約10年にわたる歳月をかけて日本電子化辞書研究所で編集された機械処理用の辞書。日英の単語辞書、概念辞書、共起辞書、対訳辞書の4種類の辞書と日英のコーパスからなる。単語辞書はさらに基本単語辞書と専門用語辞書からなり、それぞれ20万、10万見出しを持つ大規模なものである。また、コーパスは日英それぞれ約25万文からなり、各文には形態素情報、統語情報、意味情報などが付与されている。
依存構造 (dependency structure)
文の構文構造の表現形式のひとつ。文内の単語間の依存関係(係り受け関係)の集合によって文の構文構造を表現する。日本語では文節の係り受け関係を依存構造と呼ぶこともある。英語と日本語の依存構造の例を以下に示す。単語もしくは文節の依存関係を表わす矢印の向きは、通常は係り先から係り元の方向であるが、日本語では逆に係り元から係り先の方向であることが多い。
依存構造解析 (dependency analysis)
構文解析 の一種で、与えられた文の依存構造 を決定する処理。
依存文法 (dependency grammar)
依存構造 で文の構文構造を表わすという考えに基づく文法理論のこと。
一般化LR法 (generalized LR method)
LR(1)構文解析法 を拡張し、任意の文脈自由文法による解析を可能とした構文解析アリゴリズム。LR(1)構文解析法とは異なり、解析は非決定的に行われる。
異表記 (variant)
ある単語が別の文字列で表わされるとき、その文字列を異表記という。「表記ゆれ 」と同じ。例えば、「おみおつけ」「御御御付」「御御御付け」は全て「御味御汁」の異表記である。
意味解析 (semantic analysis)
与えられた文もしくは文章の意味を決定する処理。意味解析の持つ意味は広く、文の意味を明らかにする処理は何でも意味解析と呼ばれる。文の論理式への変換、格解析 、述語項構造解析 、多義性解消 、比喩理解などが意味解析の例として挙げられる。
意味クラス (semantic class)
単語の意味的な分類を表わし、共通の意味を持つ単語の集合として定義される。例えば、【動物】という意味クラスは「犬」「猫」「パンダ」など語の集合、【食物】という意味クラスは「ご飯」「パン」「焼き肉」などの語の集合として定義される。意味クラスの定義にはシソーラス がよく用いられる。
意味素 (semantic primitive)
分解意味論で用いられる意味の最小単位。シャンク(Schank)の概念依存表現に代表される分解意味論の枠組では、語や文の意味を意味素と呼ばれる最小単位の組み合わせによって表現する。たとえば、物を物理的に移動させる動作は概念依存表現では、MTRANSという意味素で表現する。これによって表層的には異なる語の関係を意味素を手がかりに推論することができる。しかし、意味素には、意味素の網羅的な集合を決めるのは困難である、意味の微妙な差を表現するのも難しいという問題がある。
意味ネットワーク (semantic network)
言語の意味表現方法の一つで、語の概念とそれらの間の関係をノードとリンクを使って表現して、言語の意味をネットワークとして表す。
意味マーカ (semantic marker)
語が持ちうる基本的な意味を数えあげ整理したもの。意味素性ともいう。意味マーカを語に付与することにより語の持つ複数の意味を区別することができる。たとえば、「大学へ行く」の「大学」は大学の場所としての側面を問題としているのに対し、「大学が合格者を発表した」の「大学」は法人としての側面を問題としている。2つの「大学」に、場所を表わす意味マーカLOC、法人を表わすORGを付与することによって意味の違いを区別できる。意味マーカの集合を定義することは、ある程度用途を限定しないと困難である。
意味役割 (semantic role)
→「深層格 」
意味役割付与 (semantic role labeling; SRL)
文が与えられたとき、その述語(動詞、形容詞など)が取る項の範囲を同定し、その項に対して意味役割(深層格 )を与える処理。述語項構造解析 と同じ。
意味論 (semantics)
記号論の一分野で、単語や文が持つ意味をとりあつかう分野。
因果関係 (causal relation)
ある事象 x が別の事象 y を引き起こす要因となるとき、x と y には因果関係があるという。因果関係にもいくつか種類があり、
x が y の前提条件となるもの(「晴れている」と「日食を見る」)、
y が x による効果を表わすもの(「食事をする」と「満腹になる」)、
x が y の手段になるもの(「ハンマーで叩く」と「釘を打つ」)などがある。因果関係は推論に必要な知識であり、大量のテキストから因果関係を自動的に獲得する研究がある。
ヴァーブモビル (Verbmobil)
言語処理技術とその将来の産業応用において、ドイツの国際的ポジションを高めることを目的として実施された、同国のFederal Ministry of Education Research and Technologyの長期プロジェクト。プロジェクトページ
ヴィタビアルゴリズム (Viterbi algorithm)
ダイナミックプログラミングの一つで、ラティス構造の各ノードにそのノードまでの部分最適解を記憶しておく方法。
後向き確率 (backward probability)
隠れマルコフモデル(HMM, hidden markov model)において、あるノードから最終ノードまでにある時系列データが生成される確率のことを後向き確率という。トレリス上を後向きに辿り動的計画法により順次求めることから後向きという名前が付いている。同様に、前向きに辿る前向き確率 (forward probability)もある。隠れマルコフモデルのパラメータ推定アルゴリズム(Baum-Welchアルゴリズム )では、前向き/後向き確率両方を用いてパラメータ推定に必要な確率を計算する。
内の関係
日本語の連体修飾で、修飾節と被修飾名詞の間に格の関係が存在するとき、修飾節と非修飾名詞には「内の関係」があるという。例えば、「太郎が座った 椅子 が壊れた」という文では、下線の修飾節の主動詞「座る」と被修飾名詞「椅子」の間には「椅子(に)座る」という格関係が成立する。関連用語=「外の関係 」
SGML (standard generalized markup language)
テキストの論理構造を記述するための枠組。テキスト本文中にタグと呼ばれるメタ記号を挿入することによってテキストの論理構造を記述する。タグの種類と意味はDTD (document type definition)と呼ばれる部分で規定する。Webページの記述に用いられるHTMLはSGMLの非常に制限された形式であると考えることができる。HTMLでは、ユーザが自由にDTDを定義することはできないし、テキストの論理構造(タイトル、章、節など)と物理表現(フォントやサイズなど)が渾然としている。
XML (extended markup language)
HTMLにDTDを記述できるように拡張した規格。SGMLの機能を制限したサブセットと考えることもできる。HTMLはインターネット上で情報を交換する規格として爆発的に普及したが、その表現力には限界がある。この問題を解決するためにSGMLのDTDの考え方をHTMLに導入し、自由にタグを定義できるようにしたものがXMLである。用途別にDTDを定義すればネットワーク上の情報交換が効率化できることから期待されている。
Xバー理論 (X-bar theory)
生成文法において、D構造において生成される統語範疇(品詞)の種類、句構造の性質を規定する。典型的には、バーレベル0の語(X)に補部(complement)が付加してバーレベル1の句(X1 またはX')となり、さらに指定部(specifier)が付加してバーレベル2の句(X2 またはX'')となるとする。また、バーレベル1の要素に付加部(adjunct)が付加したものは、バーレベル1の要素であるとし、すべての句構造はこれらによって生成されるとする。(図参照)
n-グラム (n-gram)
記号、事象などのn個の並び。自然言語処理では単語のn-グラムや文字のn-グラムがよく使われる。
n-グラムモデル (n-gram model)
単語列や文字列の生成確率をマルコフモデルで近似したモデル。右の式のように、i番目に出現する単語の確率は、その直前に出現する n-1 個の単語のみに依存すると近似する。直前の語のみに依存すると近似したモデルは2-グラムモデル(またはbi-gram(バイグラム)モデル)、直前の2語のみに依存すると近似したモデルは3-グラムモデル(またはtri-gram(トライグラム)モデル)と呼ばれる。
FST (finite state transducer)
有限状態変換器の略で、有限状態オートマトンに出力ラベルを付加した状態遷移機械。状態遷移するたびに、各弧に割り当てられた記号を出力する。
F値 (F-measure)
情報検索の分野では、情報検索システムの性能を表す総合的な評価尺度のこと。次の式で計算される。F値=((βxβ+1)xPxR)/(βxβxP+R) ここでP:適合率 、R:再現率 、β:適合率の再現率に対する相対的な重要度を示すパラメータ、を意味している。通常はβ=1として計算される。再現率、適合率ともに検索性能を表す指標であるが、これらは通常トレードオフの関係にあり、一方を高めると他方が低くなる。そこで、この両者を総合的に評価する指標として、F値が用いられる。
LR(1)構文解析法 (LR(1)parsing)
1語の先読みを行うことにより、文法規則の適用を決定的に行うことができる上昇型構文解析アルゴリズム。
LR法 (LR parsing)
→「LR(1)構文解析法 」
LSI (Latent Semantic Indexing)
情報検索において、索引語×文書の行列を特異値分解によって縮退し、統計的に同じとみなせる索引語をグルーピングすることにより、情報検索の性能を向上させる手法。
エントロピー (entropy)
情報(不確かさ)を測る量、-Σx P(x)・log2 P(x)。1948年にシャノンによって提案された情報科学の最も基礎的な概念。基本的な考え方は統計力学のエントロピーに一致する。
オートマトン (automaton)
コンピュータが計算できることと計算できないことを理論的に示すために考え出された抽象的な計算装置であり、形式言語を定義する仮想的な機械である。チューリング機械、線形拘束オートマトン、プッシュダウンオートマトン、有限オートマトンなどの種類がある。
Okapi (Okapi)
イギリスのCity Universityで開発された情報検索システム。ベクトル空間法を採用している。
音声検索 (voice search)
音声入力によって検索質問を入力し、関連文書を探索してユーザに提示する処理。音声認識 と情報検索 の両方の技術を必要とする。近年では携帯電話のインターフェースなどの実用例もある。また、音声データの中から特定のキーワードを含む音声区間を検出する処理を指すこともある。
音声認識 (speech recognition)
人間が発した音声をテキストに変換する処理。音声翻訳 、音声対話システム、音声インターフェースなど、音声を入力とする様々な応用システムに必要とされる重要な基礎技術である。隠れマルコフモデルをはじめ、大量の音声データから音声認識のためのモデルを自動学習する統計的手法が主流である。
音声翻訳 (speech translation)
音声で入力された文を別の言語に翻訳する処理。翻訳後の文はテキストで提示されることも音声で提示されること(speech to speech translation)こともある。
音素 (phoneme)
ある一つの言語で用いる音の単位で、意味の相違をもたらす最小の単位。
オントロジー (ontology)
存在論と訳される。元来は形而上学の一部門を指すが、人工知能分野においては、人工システムを構築する際に記述する知識体系を指すことが多い。
ガーデンパス文 (garden path sentences)
“The raft floated down the river sank”のように、強く優先される解釈がある時点でくつがえされる文。この例文ではsankをみた時点でfloatedが過去分詞であったことがわかる。
下位概念 (subordinate concept)
二つの概念で、一方の概念がもう一方の概念に包括されているとき、包括される概念のことを下位概念とよぶ。例えば、「車」「飛行機」「船」は「乗り物」の下位概念となる。関連用語=「言語オントロジー 」
下位語 (hyponym)
→「下位概念 」
書き言葉 (written language)
人間がテキストを書くときに用いられる言葉遣い。話し言葉 と対になる概念である。
格 (case)
伝統的には、屈折語尾により変化した名詞の形のことを言う。英語には、表層上、主格、属格(所有格)、対格(目的格)しかないが、ラテン語などには、与格、奪格、呼格など多くの格がある。生成文法における格は、動詞などによって名詞句に与えられる抽象的なものであり、先頭のCを大文字にしてCaseと書く(主格、対格、斜格、属格がある)。さらに、格文法における深層格は、動作主体、対象などの意味的な役割を指すものである。
格解析 (case analysis)
与えらえた文の格構造 を決める処理。代表的な手法は格フレーム辞書を用いる手法である。与えられた文中の動詞に対し、格フレーム辞書を引いて格構造の候補を得て、文中における動詞の格要素 が格構造の候補における選択制限 を満たすかをチェックし、最適な格構造をひとつ選択する。
格構造 (case structure)
格文法 の考えに基づく文の意味表現。動詞を中心とし、動詞と名詞、およびそれらの間の深層格 (意味的関係)の集合として文の意味を表現する。図は“Mary left Tokyo for London” という文の格構造である。動詞 leave を中心とし、leave と Mary の間の深層格は agent (動作主格)、
leave と Tokyo の間の深層格は source (源泉格)、
leave と London の間の深層格は goal (目標格)であることを表わす。
学習素性 (feature for machine learning)
機械学習 の際、データを分類する手がかりとなる情報のこと。単に「素性」ともいう。例えば、単語の品詞を推定するモデルを機械学習する際には、その単語の前後に出現する語や品詞が学習素性として使われる。言い換えれば、前後に出現する語や品詞を手がかりとして対象語の品詞を推定するモデルを学習する。学習素性として何を使うかは、機械学習に基づく自然言語処理の成否を決める重要な要因である。
学習データ (training data)
機械学習 において、分類モデルを自動的に学習するために用いるデータ。訓練データ。
格助詞 (case postposition)
助詞のうち、格 を表わすもの。「が」「を」「に」「で」など。
拡張遷移ネットワーク (Argumented Transision Network; ATN)
再帰遷移ネットワーク(RTN, Recursive Transision Network)のアークに手続きを付加したネットワーク。RTNとは、ノードとアークからなる遷移ネットワーク(TN)において、アークが他のネットワークを参照できるように拡張することでCFGの再帰規則が表現できるようにしたもの。これらは自然言語の文法を手続き的に表現するために使われる。
確定節文法 (definite clause grammar; DCG)
拡張文脈自由文法の1種。BNF記法で記述できるが、右辺には通常の終端記号の代わりに Prolog のアトムのリストを、非終端記号の代わりに Prolog の述語形式を書くことができる。さらに右辺には補強項として Prolog のプログラムを“{}”で囲んだ形で記述することができ、そのルールの適用範囲を規定できる。
格フィルター (case filter)
音形を持つ名詞句は格を持たなくてはならないとする、生成文法での制約の一つ。これにより“I don't know who John to meet” のような文は排除される。
格フレーム (case frame)
動詞が要求する言語構造(格)として、どのようなものがあるか、どういう性質を持つものなのかを記述したものを格フレームという。格フレームは、要求する格に対してスロットを持ち、それぞれのスロットを埋める語句を、そのスロットのフィラーという。
格文法 (case grammar)
Fillmoreの提唱した文法で、動詞と名詞句の格関係を統語構造として記述した深層構造から変形を経て文の表層構造が生成されるとする。ここでの格は、動詞と名詞句の意味的な関係を表すもので深層格 と呼ばれ、動作主格(agentive)、対象格(objective)、道具格(instrumental)、与格(dative)、所格(locative)などがある。
格要素 (case filler)
動詞と格関係にある名詞のこと。あるいは格に立つ名詞のこと。例えば、「太郎がボールを投げる」という文では、「太郎」は動詞「投げる」のガ格の格要素、「ボール」はヲ格の格要素である。
確率的言語モデル (probabilistic language model)
文 s の生成確率 P(s) を与える確率モデルのこと。単に「言語モデル」と呼ぶこともある。n-グラムモデル は代表的な確率的言語モデルである。
確率文脈自由文法 (Probabilistic Context Free Grammar; PCFG)
文脈自由文法の生成規則に、生成規則が適用される確率値を付与したもの。複数の解析木が得られた場合の曖昧性解消などに用いる。関連用語=「文脈自由文法 」
確率変数 (random variable)
ある確率的規則に従って値が変化する変数。たとえばコイン投げで出る面xは確率変数であり、そのとりうる値は表と裏、それぞれの確率は(普通)1/2である。
隠れマルコフモデル (Hidden Markov Model; HMM)
マルコフ過程の各状態(または状態遷移)において、ある確率で記号が出力されると考えるモデル。品詞を状態、単語を出力記号と考えれば品詞タグ付け の問題の定式化に用いることができる。
下降型構文解析 (top-down parsing)
文を表す開始記号に書き換え規則を適用して、非終端記号に書き換える。これを繰り返して、最終的に文の構文解析結果を得るような構文解析 。
括弧付きコーパス (bracketed corpus)
コーパスを統語解析し、テキスト本文中に統語構造を括弧付けで付与したコーパス。解析時の文法形式として句構造文法を採用した場合は開括弧の先頭に、その括弧でまとめられる構成素の文法範疇が付与される。一方、依存文法を用いて解析すると文法範疇は付与されない。Penn Treebankは前者の例、EDRコーパスは後者の例である。括弧付きコーパスは、文法の抽出や確率文法のパラメタ学習などに用いられる。
含意 (implication)
論理演算の一つで→または⊃で表す。A→Bが真になるのは、Aが偽またはBが真のときである。これを単純に自然言語の「ならば」に対応させるとおかしなことになる。
含意関係認識 (textual entailment)
→「含意認識 」
含意認識 (textual entailment)
T (text;テキスト) と H (hypothesis;仮説) という2つのテキストが与えられたとき、TがHを含意するか、つまりHが持つ文章の意味をTが含み得るかを判定するタスク。例えば、T=「太郎はクロールがうまい」、H=「太郎は水泳が得意だ」のときは含意関係が成立するが、T=「太郎はクロールがうまい」、H=「太郎は焼肉が好きだ」のときは成立しない。
関係抽出 (relation extraction)
テキストの中から特定の関係にある実体の組を抽出する処理。例えば、新聞記事の中から(社長)-(会社名)や(事件名)-(地名)という実体の組を自動的に抽出する。情報抽出 の一種。
間接発話行為 (indirect speech act)
発話行為(対話行為 )が、その発話内容の語義通りの意味でなく、他の発話行為を意図して用いられる現象のことで、J.R.Searle が1975年に提唱した。
関連性理論 (relevance theory)
語用論 のひとつで、Sperber と Wilson によって提唱された。人間は関連性が最大になるように物事を認知する性質があるという考えのもとに、人間の発話理解や認知のプロセスを説明する。自然言語処理に応用した研究例もいくつか報告されている。
機械学習 (machine learning)
データの集合から、未知のデータをあらかじめ定義されたいくつかのカテゴリに分類するモデルを自動的に学習する手法。正解のカテゴリが付与されたデータを訓練データとする教師あり学習(supervised learning)と、正解のカテゴリが付与されていないデータを訓練データとする教師なし学習(unsupervised learning)がある。代表的な教師あり学習アルゴリズムには決定木 、Naive Bayes モデル、決定リスト、サポートベクターマシン 、最大エントロピー法 、条件付き確率場 などが、教師なし学習アルゴリズムにはEMアルゴリズムがある。自然言語処理でも機械学習を用いる手法が主流となっている。
機械翻訳 (machine translation; MT)
計算機によってある言語の発話・テキストを他の言語の発話・テキストに変換すること。自動翻訳ともよぶ。参考ページ:アジア太平洋機械翻訳協会
GIZA++ (GIZA++)
統計的機械翻訳で用いることを前提に、単語単位のアライメントを行うツール。IBMの統計的機械翻訳モデルなどのアルゴリズムを実装している。参考ページ:GIZA++
基底部門 (base component)
改訂拡大標準理論以前の生成文法で文法を構成するとされた部門の一つで、語彙部門(辞書)と範疇部門(句構造規則)からなり、D構造を生成する。GB理論期以降廃止された。
機能語 (function word)
前置詞、接続詞、助動詞、冠詞、代名詞など、文法的役割を持ち語彙的意味をもたない語。関連用語=「自立語 」
帰納推論 (inductive inference)
個々の事実(例)から一般的な規則を導き出す推論。たとえば、「カラスが飛ぶ」「スズメが飛ぶ」から「鳥が飛ぶ」を導く(もちろんカラスやスズメが鳥であることを知っているとして)。
機能動詞 (functional verb)
強い意味を持たず、機能語 として働く動詞のこと。形式動詞とも呼ばれる。次の例文の中で下線が引いてあるのが機能動詞の例。「勉強する 」「置いてある 」「泣いている 」「仇となる 」
機能表現 (functional expression)
文中において、特に意味を持たず、文法的な機能を表わす表現のこと。一語で文法的機能を表わす機能語 と、複数の語によって文法的機能を表わす複合辞 がある。また、複合辞のみを指して機能表現と呼ぶこともある。
基盤化 (grounding)
対話において、二人の話者が相互信念 を形成すること。円滑な対話を実現するためには基盤化は必要不可欠である。
共起 (collocations)
複数の要素が、一定の範囲内(語、文、段落、文章など)に同時に現れること。
共起関係 (co-occurrence)
2つの語が一定の範囲(文、段落、文章など)に出現するとき、2つの語には共起関係があるという。関連用語=「共起 」
共起語 (co-occurrence word)
共起関係 にある単語のこと。
共参照 (co-reference)
同一指示。二つ以上の名詞句が同一の指示物を指すこと。同一指標付与(coindexing)により示される。
教師あり学習 (supervised learning)
「機械学習 」の説明を参照。
教師なし学習 (unsupervised learning)
「機械学習 」の説明を参照。
極性 (polarity)
文、句、語などの言語表現が肯定的もしくは否定的な意味を持つとき、「肯定」もしくは「否定」をその言語表現の極性という。極性を自動的に判定することは、評判情報 処理の基礎的な技術である。
空範疇 (empty category)
生成文法において、音形を持たない(目に見えない)文法要素(名詞句)のこと。NP痕跡、pro(定形節の音形を持たない主語代名詞)、PRO(不定形節や動名詞の音形を持たない主語代名詞)、wh痕跡の4つのタイプがあるとされる。
クエリ (query)
データベースへの検索要求。検索エンジンでは、検索キーがクエリーである。
句構造 (phrase structure)
文がどのような単語、および句から階層的に構成されているか、また、各構成素(語・句)はどのような統語範疇を持つか、を表したもの。多くの場合、木構造によって表される。
句構造解析 (phrase structural analysis)
構文解析 の一種で、与えられた文の構文木 を決定する処理。あらかじめ用意した文脈自由文法を用いて構文木を生成する場合が多い。
具象名詞 (concrete noun)
→「具体名詞 」
具体名詞 (concrete noun)
具体物を表わす名詞。「机」「みかん」「パソコン」など。反義語は抽象名詞 。
屈折 (inflection)
語が接辞付加やウムラウトによって変化すること。名詞・代名詞・形容詞などの数変化・格変化を特に曲用(declension)、動詞の人称変化・時制変化などを活用(conjugation)と呼ぶこともある。英語もかつては豊富な屈折があったが、しだいに機能語にその役目を取って代わられた。
屈折語 (inflectional language)
屈折言語。文法関係を表すのに、主に屈折 を用いる言語のこと。これに対して、機能語や語順によって文法関係を表す言語を分析的言語(analytic language)という。たとえば、ラテン語、日本語は屈折語。中国語は分析的言語。
屈折語尾 (inflection suffix)
屈折 (語形変化)において、語幹につけられる接尾辞のこと。たとえば、英語において過去・過去分詞形をあらわす -ed や、複数を表す -s など。
クラスタリング (clustering)
データの集合が与えられたとき、それらを自動的に分類していくつかのグループ(クラスタ)に分割する処理。自然言語処理では文書、文、単語などを対象にクラスタリングを行うことが多い。
訓練セット (training set)
→「訓練データ 」
訓練データ (training data)
機械学習 を行う際に、モデルまたはパラメータを学習するために使うデータ。
形式名詞 (formal noun)
強い意味を持たず、他の修飾要素なしでは使うことのできない名詞のこと。節や句を形成するなど文法的な役割を担う。次の例文の中で下線が引いてあるのが形式名詞の例。「泣いたこと がない」「負けるの は嫌だ」「ちょうど食べ終えたところ だ」
形態素 (morpheme)
意味を持つ最小の言語単位。これが1つ以上あつまって単語をなす。また、与えられた文書を形態素に分解することを形態素解析 という。
形態素解析 (morphological analysis)
文を形態素に分割し、品詞、活用等を認識する処理。
系列ラベリング問題 (sequence labeling)
あるデータの系列 x1 ...xn が与えられたとき、それらに対するラベル y1 ...yn を決定する問題のこと。個々のデータ xi のラベルを独立に決めるのではなく、系列全体でラベルを最適化することで正解率を向上させる。自然言語処理の多くの問題が系列ラベリング問題に帰着できる。例えば、品詞タグ付け は、文中の単語列 x1 ...xn に対してその品詞 y1 ...yn を決定する系列ラベリング問題である。
結果構文 (resultative construction)
「塀を真っ黒に塗った」や “She left the door open.” のようなSVOC型の構文のこと。
結合価 (valency)
動詞が他の成分と「結合」して文全体の意味を構成する能力のこと。動詞が結合する必須成分の数を指すこともある。ここで、動詞と結合する他の成分とは項 に該当する。
結束性 (cohesion)
テキストの結束性とは、テキスト内における文間のつながりであり、文の集合を全体で意味のあるテキストして成立させるために必要とされるものである。文間の文法的な整合性を表わす文法的結束性と、意味的な整合性を表わす語彙的結束性の二種類に大別される。
決定木 (decision tree)
機械学習アルゴリズムのひとつで、データから分類規則を学習し、条件判断の結果を部分木として表したもの。統計的な分類モデル(例えば、ニューラルネットワークやサポートベクターマシン )とは異なり、誰でも容易に理解できるIF-THEN規則として読めるという利点がある。決定木のルートからリーフまでの一つのパスが分類の規則に対応する。
原言語 (source language)
機械翻訳 において、言語Aの文を言語Bに翻訳するとき、翻訳前の言語Aのこと。関連用語=「目標言語 」
言語横断情報検索 (cross lingual information retrieval; CLIR)
ある言語の検索質問に対し、別の言語で書かれたテキスト集合から適合文書 を検索するタスク。検索質問をテキスト集合の言語に翻訳してから通常の(単言語)情報検索を行う方式と、あらかじめテキスト集合を翻訳し検索質問の言語でインデックスを作成する方式がある。
言語オントロジー (linguistic ontology)
語あるいは語の表わす概念同士の関係を体系化し整理したもの。概念体系と呼ばれることもある。概念間の関係としては、シソーラスで用いられるような上位/下位関係、部分/全体関係、同義関係、類義関係などの他に概念と概念の間の役割関係などを用いる。シソーラスが表層的な語の分類に重点をおいているのに対し、オントロジーはより語の意味に近い概念の分類に重点をおいている。
言語解析 (language analysis)
自然言語で表された言語表現を解析し、コンピュータが扱える形式に変換すること。関連用語=「言語生成 」
言語学 (linguistics)
その名の示すとおり、言語に関する学問。人間がコミュニケーションに用いる自然言語を対象にしたもの、コンピュータなどで使用される人工言語を対象にしたもの、歴史的な観点からみた歴史言語学、言語間の比較を行う比較言語学など、言語学をさらに細分化した学問は非常に多岐にわたる。
言語資源 (language resource)
自然言語処理に必要とされるデータや知識ベースの総称。コーパス(タグ付きコーパス 、平文コーパス )、単語辞書 、シソーラス などが代表的な例。自然言語処理用ツールを含めるときもある。言語資源は自然言語処理のためのインフラストラクチャーといえる。
言語生成 (language generation)
コンピュータなどに存在する意味構造から言語表現を生成すること。関連用語=「言語解析 」
言語モデル (language model)
テキストコーパスの解析などにより得られる言語の特徴を表すデータ。関連用語=「n-グラムモデル 」
言語理解 (language comprehension)
→「自然言語理解 」
検索質問 (query)
→「クエリ 」
語彙 (lexicon)
単語の集合のこと。または用語集のこと。誤って「単語」という意味で使われることもある。
語彙概念構造 (Lexical Conceptual Structure; LCS)
Jackendoff によって提案された生成意味論。この理論では、動詞の概念的な意味を基本的な意味構造に分解し、いくつかの限られた述語、項、付加詞から構成される表現形式で表わす。これを語彙概念構造と呼ぶ。また、語彙概念構造で用いられる基本的な意味構造は階層的に分類されている。以下は語彙概念構造の簡単な例である。
hit: X ACT ON-Y
cut: [X ACT ON-Y ] CAUSE [BECOME [Y BE AT-STATE]]
break: X CAUSE [BECOME [Y BE AT-STATE]](Verb Semantics and Syntactic Structure, Taro Kageyama ed., くろしお出版, 1997. より引用)
語彙的連鎖 (lexical chain)
同一テキスト内に出現し、互いに何らかの関連性(同義関係など)を持つ単語の並びのこと。パッセージ検索や自動要約(重要文抽出 )などへの応用例がある。
項 (argument)
述語(動詞、形容詞など)とともに現われ、述語の意味を補完する役割を果たす要素。述語は一般に主語や目的語を取るが、これらが項に該当する。項は文が成立するために必ず必要とされる。関連用語=「付加詞 」
恒真式 (tautology)
つねに真となるような命題をあらわす論理式。
構文解析 (parsing)
自然言語の文の文法的構造を明らかにする処理。自然言語処理においては、形態素解析の次の段階の処理、あるいは意味解析・文脈解析の前の段階の処理と位置付けられている。
構文木 (Syntax tree)
木構造で表現された文の構文的な構造のこと。葉は単語、内部ノードは句の種類(NP(名詞句),VP(動詞句)など)を表わすラベルである。典型的な構文解析では、あらかじめ解析対象の言語の文脈自由文法を用意し、与えられた文に対して、文法内の規則を組み合わせて構文木を得る。以下は構文木の例である。
後方照応 (cataphora)
代名詞などが別の語を指し示す照応 のうち、指示される語が指示する語よりも後に出現する場合のこと。関連用語=「前方照応 」
コーパス (corpus)
実際に使用された言語表現を集積、整理した言語データ。1980年代後半からコーパスから言語処理に有用な知識を自動抽出する研究が盛んになり、コーパスの整備も精力的におこなわれてきた。コーパスには何も情報を付与しない未加工コーパス(平文コーパス )と様々な情報を付加したタグ付きコーパス がある。コーパスを構築する上で重要な点は、量が十分あること、付与する情報の品質が高いこと、誰でも容易に利用できることである。
コーパスからの知識獲得 (knowledge acquisition from corpus)
1980年代後半から盛んになってきた自然言語処理研究の流れのひとつで、それまで人手で記述していた自然言語処理のための言語知識を大量のコーパスから(半)自動的に抽出しようとする研究。この背景には大量の電子化されたテキストが普及したこととハードウェアの高性能化、低価格化がある。研究手法は、統計的な手法によって、文法、辞書などの知識を抽出するものと、統計的な言語モデルを仮定し、モデルのパラメタを推定し言語処理における曖昧性解消 に利用するものに大別できる。
語幹 (stem)
語の語形変化において、変化しない部分のこと。例えば、「投げる」という動詞なら「投げ」が語幹になる。
語基 (stem)
→「語幹 」
語義 (sense)
単語の意味のこと。例えば、bank という単語は「銀行」と「土手」という2つの語義を持つ。
語義曖昧性解消 (word sense disambiguation; WSD)
→「多義性解消 」
コサイン類似度 (cosine similarity)
ベクトル間の類似度を測る尺度のひとつ。計算式は右図の通り。θは2つのベクトルの間の角度であり、θが小さいほど(2つのベクトルの向きが似ているほど)コサイン類似度は大きい値を取る。情報検索 をはじめ、自然言語処理で使わることが多い。
コック嵩ヤンガ法 (Cocke-Kasami-Younger algorithm)
→「CKY法 」
異なり語数 (number of type)
テキスト中の単語の種類の数。すなわち、同じ単語が複数出現しても1回の出現と数える。関連用語=「延べ語数 」
固有表現 (named entity; NE)
固有名詞 (人名、地名、団体名)、数値データなどの情報抽出 のキーとなる単語。但し、厳密な定義はされていない。関連用語=「固有表現抽出 」
固有表現抽出 (named entity extraction; NEE)
テキストから固有表現 を抽出し、その種類(人名、地名、組織名、日付、など)を特定する処理。固有表現は種類が多く、特に固有名詞は新しいものが日々生成されているため、全ての固有表現を網羅的に含む辞書を用意することは難しい。そのため、固有表現が出現する文脈を手がかりとする手法が主流である。
固有名 (named entity)
→「固有名詞 」
固有名詞 (proper noun)
名詞の下位区分の一つ。同じ種類に属する他のものから区別するために、そのものだけに付けられた名を指す。人名、地名、組織名、書名、曲名などがある。
語用論 (pragmatics)
統語論、意味論と並ぶ記号論の一部門。記号または言語的表現とその使用者との関係を取り扱う。
再帰代名詞 (reflexive pronoun)
主語と同一の関係にあり、自分自身を意味する代名詞のこと。例えば、「彼は、自分に厳しい」という文では、「自分」が再帰代名詞となる。
再帰的遷移ネットワーク (recursive transition network; RTN)
「拡張遷移ネットワーク 」の説明を参照。
CYC (CYC)
人間の持つ百科辞典的な知識を人手で構築することを目指したプロジェクト。1984年に米国MCC社のレナート(Lenat)らによって始められ、1995年からはCycorp社に引き継がれている。CYCでは、コンピュータが持つ知識の量がある臨界点を越えれば、その後はコンピュータによる自動学習が可能になるという仮説を前提としている。現在までに約100万の推論規則を人手で記述しているが、知識の量が臨界点を越えたという報告はまだない。
再現率 (recall)
情報検索システムの性能を表す評価尺度の1つで、次の式で計算される。再現率=(検索結果のうち、検索意図に適合する項目数)/(全検索対象の中で、検索意図に適合する項目数) 本来、検索したい項目のうち、どれだけが実際に検索できたかを示す数値であるが、その定義上、これを計算するには、検索対象となる全集合の中で、ある検索要求に適したものがどれだけあるのかを別途求めておく必要がある。
最大エントロピー法 (maximum entropy method)
機械学習アルゴリズムのひとつ。制約を満たす範囲で確率モデルのエントピーが最大になるようにモデルのパラメタを推定する。自然言語処理の分野でも多くの成功例が報告されている。
最大投射 (maximal projection)
Xバー理論 において、語Xの投射Xn のうち、nが最大のものを指す。
最尤推定法 (maximum likelihood estimator; MLE)
ある事象が観察されたときに、観察データから事象のモデルのパラメータを具体的に求める手法。
索引語 (index term)
情報検索 において、検索対象となるテキストからあらかじめ抽出したキーワードのこと。関連文書の検索は、基本的には検索質問中の語と索引語を照合することによって実現される。テキスト中の語を索引語とすることが多いが、句を単位として索引語を取り出すこともある。また、文中の自立語のみを索引語とし、付属語などのストップワード は除かれることが一般的である。
サ変名詞
「する」が続いて動作を表わす動詞を派生 する名詞のこと。サ変名詞に「する」がついた派生語はサ変動詞と呼ばれる。「利用」「食事」「飛行」などがある。「サ変」はサ行変格活用(「する」の活用型)の略。
サポートベクターマシン (Support Vector Machine; SVM)
カーネル関数による非線形変換でデータを高次元空間に写像し、その空間で線形分離を行う分類器。汎化能力が高いことで注目されている。
参照表現 (referring expression)
文中もしくは発話において、(あらゆる事物の中から)特定の事物を限定して指し示す表現のこと。定冠詞を伴う名詞句(the+名詞)、指示形容詞(these,thoseなど)、代名詞、固有名詞 が代表的な例。
CES (Corpus Encoding Standard)
コーパスに付与する情報の標準化のひとつ。ヨーロッパを中心に、MULTEXT、EAGLES、Vassar大学、CNRSの協力体制のもとに活動している。基本的にはTEIで策定された標準化に沿っているが、TEIがあらゆる一般の文書を電子化するための標準化であるのに対し、CESでは、それをコーパスに対する情報付与に特化した形で簡略化している。
CKY法 (CKY algorithm)
チョムスキー標準形の文脈自由文法に対する標準的な構文解析アルゴリズム。「CYK法」と呼ばれることもある。
C統御 (c-command)
cコマンド、構成素統御。構文木における二つの節点間の関係の一つで、次の場合、αはβをc統御する:(i)αもβも互いに支配せず、(ii)αを支配する最初の枝分かれ節点がβを支配する。例えば、他動詞は直接目的語をc統御するが、間接目的語や主語、修飾語はc統御しない。代名詞、再帰代名詞、相互指示代名詞、普通名詞句、空範疇の同一性を決定するための束縛理論(binding theory)などで使われる。
辞書定義文 (definition sentence)
辞書において、単語の意味を定義する文、もしくは単語の意味を説明した文のこと。辞書は辞書定義文から構成されるコーパス とみなすことができ、辞書定義文を利用した自然言語処理や辞書定義文からの知識獲得に関する研究がある。
システミック文法 (systemic grammar)
1960年代にM.A.K.Hallidayが提唱した文法で、単語や句や文のもつ機能に注目して、これを分析的にとらえたもの。
自然言語 (natural language)
日本語や英語など、人間が使用する言語のこと。形式言語と区別するための用語。
自然言語理解 (natural language understanding)
自然言語で記述された文章の意味を計算機によって明らかにする技術。
シソーラス (thesaurus)
語や句を上位/下位関係、部分/全体関係、類語関係、反意関係などの様々な関係に基づいて分類・整理した辞書。シソーラスの例として、日本語では、国立国語研究所の分類語彙表、角川書店の新類義語辞典、岩波書店の日本語語彙体系、英語では、ロジェのシソーラス、WordNetなどがある。日本語語彙体系以外は人間が利用することを目的として編集されたものであるが、自然言語処理でも利用され、その有効性が知られている。
事態性名詞 (eventive noun)
→「事態名詞 」
事態名詞 (eventive noun)
何らかの事態もしくはイベントを表わす名詞。動詞・形容詞の連用形から派生した名詞(「眠り」「楽しみ」など)やサ変名詞(「勉強」「投球」など)がある。
質問応答システム (question-answering system)
自然言語による対話システムの一種。自然言語による質問文を入力として受け取り、それに対する答えを出力として返す。英語では‘QA system’ともいう。
質問拡張 (query expansion)
情報検索において、検索質問に含まれる単語と関連のあるキーワードを求め、検索質問に自動的に追加する手法。関連のあるキーワードとしては、シソーラスから得られる同義語 、上位語 、下位語 や、単語辞書から得られる異表記 の語などがある。主に再現率 の向上が見込まれる。
質問タイプ (query type)
一般的な質問応答システム では、ユーザによって入力された質問をいくつかのカテゴリに分類する処理が行われるが、このカテゴリを質問タイプと呼ぶ。質問タイプは様々な定義の仕方があるが、質問が何を問うかによって定義することが多い。この場合、「場所(を問う質問)」「人」「日付」などが質問タイプとなる。
指定部 (specifier)
Xバー理論 において、語Xの最大投射に直接支配される要素のうち、Xの投射でないもの。
自動翻訳 (machine translation)
→「機械翻訳 」
自動要約 (automatic summarization)
→「要約 」
斜格 (oblique case)
伝統的には、主格と呼格以外の格のことを言う(対格を除くこともある)。生成文法においては、前置詞の目的語に与えられる(表層)格のこと。関連用語=「格 」
修辞関係 (rhetorical relation)
文間、節間などにおける意味的な関係のこと。関連用語=「修辞構造理論 」
修辞構造理論 (Rhetorical Structure Theory; RST)
テキストにおいて、それぞれの個所がテキスト全体に対してもつ役割を説明しようとする理論。コンピュータベースのテキスト生成研究の一環として、Bill Mannらが提唱した。
終端記号 (terminal symbol)
句構造規則のなかで、それ以上書き換えられないような記号。
重要文抽出 (sentence extraction)
要約 の手法のひとつ。テキストの中から重要と思われる文を抽出し、それらを元のテキストの要約とする。重要文を選択する際には、文のテキストにおける位置、テキストの重要なトピックを含むこと、重要文として選択された文の内容が重複しないこと、などの観点が考慮される。自動要約で最もよく用いられる手法である。
主辞 (head)
句または文の主要語。特に、それを修飾する語(modifier)との関係を考える場合に用いる。「青い空」では「空」、「空が青い」では「青い」が主辞。
主辞駆動句構造文法 (head driven phrase structure grammar; HPSG)
主辞(head)という概念を中心にした句構造文法で、文法(原理・規則)に基づく単一化という操作によって文の解釈が生まれる。
主題関係 (thematic relation)
→「深層格 」
述語項構造 (predicate argument structure)
文の意味表現のひとつ。述語(動詞、形容詞など)とそれが取る項の関係をまとめたものである。格構造 とほぼ同じ。
述語項構造解析 (predicate argument structure analysis)
与えられた文の述語項構造 を決定する処理。文中の述語に対し、それが取る項とその範囲、さらに述語と項の意味的関係を同定する。意味解析 の一種であり、意味処理を必要とする様々な応用システムの性能を向上させるための重要な要素技術である。
SHRDLU (SHRDLU)
1972年にMITのウィノグラードが発表した対話システム。計算機内にモデル化した積木の世界に対して、ユーザの命令を解釈して積木を移動させる。(小さな)世界の完全なモデル化により計算機による意味処理、文脈処理が可能であることを示した。ウェブ上にデモプログラムなどがある。
主要部移動 (head movement)
生成文法における移動の一つ。最大投射でなく、語(X0 レベルの構成素の移動を言う。例えば、Is John happy? という疑問文においては、動詞is がJohn is happy. の動詞句 is happy の主要部の位置から、(時制句(IP)の主要部の位置を経て)文(CP)の主要部の位置に移動しているとする。
上位-下位関係 (hypernym-hyponym relation)
概念間の意味的関係のひとつ。二つの概念A,Bがあり、AがBに包括されているとき、AとBの間には上位-下位関係があるという。包括する概念Aを上位概念 、包括される概念Bを下位概念 と呼ぶ。‘B is a A’ という文が成立するため、IS-A 関係と呼ばれることもある。
上位概念 (superordinate concept)
二つの概念で、一方の概念がもう一方の概念に包括されているとき、包括する概念のことを上位概念とよぶ。例えば、「乗り物」は、「車」「飛行機」「船」の上位概念となる。関連用語=「言語オントロジー 」
上位語 (hypernym)
→「上位概念 」
照応 (anaphora)
代名詞、指示詞などの照応語とその指示対象の組からなる言語現象。日本語においては照応語が省略される場合もある(ゼロ照応)。
照応解析 (reference resolution)
代名詞などの照応詞 が指し示す語を特定する処理。照応には、指示される語が同一の文内に出現する文内照応、他の文に出現する文間照応、テキストには出現しない文章外照応があるが、文内照応と文間照応のみに問題を限定する場合が多い。
照応詞 (anaphora)
代名詞や指示詞など、他の語を指し示す語のこと。
照応表現 (anaphora)
→「照応詞 」
条件付き確率場 (conditional random fields; CRFs)
系列ラベリング問題 を解くための機械学習アルゴリズム。近年、自然言語処理における様々なタスクに適用され、良好な結果が得られている。
焦点 (focus)
談話において話題の中心となっている事物のこと。
情報検索 (information retrieval; IR)
ユーザの質問に対して適切だと思われる文書の集合を提示する技術。
情報抽出 (information extraction)
文章の中から特定の情報を自動的に抽出すること。例えば、テロ事件の新聞記事を対象とする場合、事件が発生した日時、場所、犯人、被害など、抽出するべき情報の種類をあらかじめ決めておき、実際の新聞記事の中からそれぞれに該当する情報を抽出する。
所格 (locative)
格(深層格 )のひとつで、場所や位置を示すもの。英語の場合、前置詞atやinなどによって示される場合が多い。
自立語 (content word)
名詞、動詞、形容詞、形容動詞、副詞など、単語単独で意味を持つ語。関連用語=「機能語 」
深層格 (deep case)
Filmoreの格文法において導入された、述語と項の意味的な関係。 動作主格(agentive), 対象格(objective)、道具格(instrumental)、与格(dative)、所格(locative)などがある。生成文法ではΘ役割と呼ばれる。意味役割(semantic role)、主題関係(thematic relation)と同義。関連用語=「格文法 」「格 」
深層構造 (deep structure)
変形文法において、文の表層的な構造を表すものを表層構造というのに対し、文の真の構造を表わすものを深層構造という。例えば、受身文において、表層構造は元の受身文と同じ語順となり、深層構造は受身文を能動態に変換した文と同じ語順となる。
信念 (belief)
世界の状態に関して行為者(プログラム)が持っている命題と定義されるが、いわゆる一般的な意味での「信念」と考えてよい。この命題は「信念」であるため、お互いに矛盾することもあるし後に覆されることもある。直接信じている信念のことを明示的(explicit)信念、明示的信念から帰結できる信念のことを暗示的(implicit)信念と呼び区別することもある。
スクリプト (script)
人が通常行っている定型的な行動を、事象列という形で表現したもの。シャンク(Schank, R. C.)は、人間は知っている多くのスクリプトから状況に応じて適切なものを想起することにより、文脈を理解していると仮定している。
ストップワード (stop words)
情報検索において、索引語 から除去するべき語のリスト。付属語や、be, have のような一般的な意味を持つ語など、情報検索に有効でないと考えられる語から構成される。ストップワードは数が限られるため、あらかじめ人手で作成しておくことが多い。
スムージング (smoothing)
確率モデルの推定において、訓練データに出現しない事象に対して微小な確率値を割り当てること。平滑化とも呼ばれる。
スロット (slot)
フレーム(frame)の構成要素で、属性と属性値のペアからなる。
性 (gender)
名詞を分類するもので、ドイツ語・ロシア語などでは男性・中性・女性に分けられる。冠詞、動詞などとの一致(agreement)が問題となる。英語では人称代名詞以外には性の区別はない。
正規言語 (regular language)
形式言語のクラスのひとつで、有限オートマトンによって受理される言語の集合を指す。また、正規文法による生成言語の集合、正規表現 で表現可能な言語の集合でもある。
正規表現 (regular expression)
文字列の集合を表わす記法。アルファベット、・(連結)、+(和集合)、*(閉包)、括弧で構成される。パターンマッチにおけるパターンの記述によく用いられる。関連用語=「正規言語 」
正規文法 (regular grammar)
句構造文法の書換え規則に、A→aB、またはA→a(A、Bは非終端記号、aは終端記号)の形の制約を課して得られる文法。正規文法で生成される言語を正規言語 という。
制限言語 (controlled language)
語彙、構文パターンなど、その言語で取り扱う表現範囲を制限し、機械での処理や解釈を容易にするため制限を課した言語のこと。
生成文法 (generative grammar)
Noam Chomskyが提唱した、文が意味構造から演繹的に生成されるとする文法理論。初期においては、変形規則の記述に重点がおかれ、変形文法と呼ばれていたが、変形規則が膨大になるにつれ、見直しが起こり、個別の変形規則が少数の一般的な原理から導かれるとする、「原理とパラメータのアプローチ(principles and parameters approach)」または「原理・パラメータ理論(principles and parameters theory)」に発展した。これらは「GB理論(統率・束縛理論, Government-Binding theory)」と呼ばれることもある。人間は生まれながら普遍文法を知っていて、そのパラメータを習得することにより、個別の言語を習得するという考え方も特徴的である。最近では、認知的なアプローチを取り入れた「Minimalist Program」という枠組みでの見直しが提唱されている。
精度 (precision)
→「適合率 」
セマンティックウェブ (semantic web)
各々の文字列(単語)をメタデータと共に記述することによってウェブ上のデータの種別が分かるという新しいウェブのコンセプト。実現すると高度なウェブ検索ができるなど効果は大きい。
0型文法 (type 0 grammar)
チョムスキーの階層における形式文法の一種。任意のα→βという形式の書き換え規則の集合から構成される文法を指す。
ゼロ照応 (zero anaphora)
主語や目的語など文の主要な構成要素をなす語が省略されているとき、その省略された語と、文章中で同じものを指す語はゼロ照応をなしていると考える。例えば「高価なワインを買った。ゆっくりと味わった。」といった文章では、2文目の「味わった」の目的語は1文目の「ワイン」である。よって、これを省略なしで書くと「高価なワインを買った。(それを)ゆっくりと味わった。」となる。このとき、「ワイン」と省略された「それ」がゼロ照応の関係になる。通常、省略された語に対応する語は、省略された文の前に現れるため、先行詞と呼ぶ。また、省略された語はゼロ代名詞とも呼ばれる。
線形補間法 (linear interpolation)
n-グラムモデル をスムージングする手法のひとつ。n-グラムモデルの確率を低次のn-グラムモデルの線形和として推定する。
先行詞 (antecedent)
前方照応 において、代名詞などの照応詞 より前に出現し、その照応詞が指し示す語のこと。
潜在的トピックモデル (latent topic model)
文書(単語の集合)を確率的に生成するモデルを基に、与えられた文書集合に隠されたトピックを発見し、また未知の文書のトピックを推定する手法。代表的なものとして Latent Dirichlet Allocation(LDA) や Probabilistic Latent Semantic Indexing(PLSI) がある。自然言語処理の様々なタスクで利用されている。
全称限量子 (universal quantifier)
述語論理で使用される限量子の一つで、変数の前につけて「すべての~」という意味を表す。記号は∀。
漸進的構文解析 (incremental parsing)
音声対話システムなどのリアルタイムシステムでは、一文の入力が完全に終わる前に構文解析 の結果を必要とする場合がある。漸進的構文解析とは、完全な文を入力とするのではなく、文を一語ずつ入力し、その都度構文解析を行って文の部分的な構造(あるいは部分構文木)を認識・出力する処理である。入力が文の終わりに近づくにつれてより完全な構文木が得られる。
センター (center)
談話理論では、文中の話題の中心を指す。関連用語=「センタリング理論 」
選択制限 (selectional restriction)
語と語が結び付いて句を形成するさい、意味のある句を形成するためにそれらの語が満たすべき制約。典型的な例は動詞の格要素 に対する意味的な制約である。例えば、動詞「食べる」の主語になる名詞は「生物」という意味を持たなければならず、目的語になる名詞は「食べ物」という意味を持たなければならない。
選択制約 (selectional restriction)
→「選択制限 」
センタリング理論 (Centering Theory)
局所的な焦点の移り変わりをモデル化した理論。ある発話内の要素(前向きセンター:forward-looking center)の中で、それまでの話題を引き継ぐもの(後向きセンター:backward-looking center)が何か、そこにどのような優先順位があり、代名詞などと関連するかを議論する。
全文検索 (full text search)
テキストもしくは複数のテキストの集合から、与えられた文字列を探し出す処理。「全文」とは、メタデータやタイトルなどテキストの一部のみを検索の対象とするのではなく、テキスト全体を検索対象とすることを意味する。情報検索 と似ているが、全文検索は単に与えられた文字列を探し出すことのみを目的とするのに対し、情報検索はユーザの検索要求を満たす文書を探し出すことを目的とするという意味合いが強い。
前方照応 (anaphora)
代名詞などが別の語を指し示す照応 のうち、指示される語が指示する語よりも前に出現する場合のこと。関連用語=「後方照応 」
専門用語 (technical term)
医学分野における医療用語など、ある特定の分野のみで使われている単語のこと。専門用語は辞書の整備が進まないことが多く、専門用語の処理は自然言語処理における重要な課題のひとつである。
相互情報量 (mutual information)
2つの確率変数 の依存性を、エントロピー の差によって表す尺度。
相互信念 (mutual belief)
対話において、二人の話者が共有する知識や信念のこと。共通基盤(common ground)とも呼ばれる。
属性 (attribute)
個体(instance)のある特徴を示すもので、そこにある具体的な属性値 (value)が与えられる。たとえば属性「名前」に対して「太郎」という属性値が与えられる。
属性値 (value)
ある属性 (attribute)に対して、そこに与えられる値。たとえば属性「名前」に対して「太郎」という属性値が与えられる。
束縛理論 (binding theory)
名詞句(照応形、代名詞類、その他)の先行詞のあるべき範囲を規定する理論。構成素XがYと同一指標を持ち、XがYをc-統御しているとき、XはYを束縛(bind)するという。束縛理論を用いると、たとえば、Bill thinks George admires himself. という文において、himself が George を指しBill ではないことが説明できる。
素性 (feature)
素性構造 (feature structure)の構成要素で、属性と属性値のペアからなる。フレームにおけるスロットに近い。機械学習 における素性もほぼ同じ意味。
素性構造 (feature structure)
LFG(Lexical Functional Grammar), HPSG(Head-driven Phrase Structure Grammar) などの単一化文法において、カテゴリーなどの言語情報を表現するための構造。これらの文法においては、解析は素性構造間の単一化により実行される。
素性選択 (feature selection)
機械学習 において、分類の手がかりとなる情報のことを学習素性 または単に素性という。素性選択とは、学習素性の候補の中から機械学習に有効な素性のみを自動的に選択する手法である。
外の関係
日本語の連体修飾で、修飾節と被修飾名詞の間に格の関係が存在せず、修飾節が名詞に関する説明を補足しているとき、修飾節と非修飾名詞には「外の関係」があるという。例えば、「この部屋に幽霊が出る 話 を聞いた」という文では、下線の修飾節の主動詞「出る」と被修飾名詞「話」の間には格関係はなく、修飾節は「話」の内容を補足している。関連用語=「内の関係 」
代表表記 (canonical form of a word)
異表記 を持つ単語において、その単語の最も代表的な表記。例えば、「林檎」という語は「りんご」や「リンゴ」のように表記されることもあるが、その代表表記は「林檎」である。自然言語処理においては表記や表現の揺れをどのように認識するかがしばしば問題となるが、代表表記によって語の表記を正規化することはその解決策のひとつである。
対訳コーパス (bilingual corpus)
ある言語のテキストとそのテキストの別言語への翻訳を並列したコーパス。通常はアラインメント によって対応する段落、文、語などの要素間の対応付けをおこなったものをいう。対訳コーパスは統計に基づく翻訳をおこなうための基礎情報を得るために必要なコーパスである。対訳を持つテキストの絶対量が単一言語のコーパスより少ないことや翻訳の質の問題、言語構造が異なる言語対についてはアラインメントが困難であるなどの問題があり、単一言語のコーパスに比べると整備は進んでいない。
対訳辞書 (translation-pair dictionary)
2つ以上の言語の間の対訳関係を記述した辞書。通常は2言語を対象とし、翻訳の方向に方向性があることが多い。たとえば、英日対訳辞書では、英語の見出し語に対して、対応する日本語の訳語と補足説明などを記述する。補足説明としては、その訳語が適切となる条件や対訳の関係などがある。言語の対によっては、対訳対となっている語が表わす概念が完全に一致しない場合がある。対訳関係は対訳対の関係を表わし、同義、上位/下位、類義などの関係がある。
対話 (dialog)
二人の人、もしくは人と機械によって発せられる複数の発話の集合のこと。関連用語=「談話 」
対話行為 (dialog act)
話し手が発話したとき、その話し手の意図を表わす抽象的概念のこと。対話行為の例としては、聞き手に対して何らかの行為を要求する「依頼」、話し手が聞き手の応答をある程度予測して質問を発する「確認」、聞き手にyesまたはnoで答えられる質問を発っする「真偽情報要求」、聞き手に何らかの値もしくは表現を応答として要求する質問を発する「未知情報要求」、相手の発話の要求を受け入れることを伝える「肯定」、相手の要求を受諾しないことを伝える「否定」などがある。対話行為の認識は対話システム における重要な要素技術である。
対話システム (dialog system)
人間と自然言語による対話を行うシステムのこと。ホテルの予約や道案内など、適用される場面(ドメイン)を限定して、対話を通じてある目標(ホテルを予約する、目的地までの道順を教える、など)を達成することを目的とするタスク指向型対話システムに関する研究が主流である。一方、チャットシステムや人工無脳などドメインを限定しない対話システムも研究されている。
多義語 (polysemous word)
複数の意味を持つ語。同音異義語との区別は明確でないが、基本的には語源が同じものを多義語、語源が異なるものを同音異義語とする。NLPにおいては多義をどのような視点、粒度で考えるか、定義するかが大きな問題となる。関連用語=「同音異義語 」
多義性解消 (word sense disambiguation; WSD)
ある単語が複数の語義をもっているとき、文中でその単語がどの意味で使われているかを決定する処理。語義曖昧性解消とも呼ばれる。
タグ (Tree Adjoining Grammar; TAG)
文脈自由文法 の拡張で、記号列を書き換える規則ではなく、木構造を書き換える規則を持った文法。
タグ (tag)
品詞、係り先、照応先など、テキストで明示的に現われていない情報を明示化したもの。
タグ付きコーパス (tagged corpus)
コーパスを解析し、形態素情報、統語情報、意味情報、談話情報などを付加したコーパス。各情報はテキスト本文中にタグとして挿入されることが多いため、このように呼ばれる。コーパスから言語知識を獲得するための基礎データとしてタグ付きのコーパスは必要不可欠であるが、コーパスよって付与するタグが必ずしも統一されていないのが現状である。このためタグを標準化する活動もいくつかおこなわれている。関連用語=「平文コーパス 」
単語クラス (word class)
一般に、共通の性質を持つ単語の集合のこと。意味クラス と同じ意味で使われることが多い。
単語辞書 (word dictionary)
単語に関する様々な情報を記載した単語のデータベース。電子化辞書 のうち自然言語処理のために作成されたものであり、代表的な言語資源 のひとつである。記載される情報としては、品詞、読み、活用型、活用形などが一般的であるが、動詞とその格フレーム を記載した格フレーム辞書、単語とその極性 を記載した評価表現辞書などもある。
単名詞句 (base noun phrase)
英語で、他の名詞句を伴わない単純な名詞句のこと。例えば、“I saw a girl with a telescope.”という文では、“a girl” も“a girl with a telescope”も名詞句であるが、単名詞句は前者のみである。‘base NP’と表記されることが多い。
談話 (discourse)
複数の発話のまとまりを談話という。談話のうち、発話者が一人の場合は独話(monologue)、二人以上の場合は対話(dialogue)と呼ばれる。
談話構造 (discourse structure)
談話セグメント間の関係を表わす構造。
談話構造解析 (discourse structure analysis)
与えられたテキストの談話構造 を同定する処理。手がかり句 を利用する手法や機械学習 に基づく手法などがある。
談話セグメント (discourse segment)
同じ話題について言及している発話をまとめることによって談話をいくつかのグループに分割したとき、そのひとつのグループを談話セグメントと呼ぶ。
知識表現 (knowledge representation; KR)
知識を計算機で処理するために用いられるデータ構造。
知識ベース (knowledge base; KB)
特定のドメインに関する知識を体系的に集積したもの。
チャートパージング (chart parsing)
解析木をグラフで表現したチャート(CHART)を使って構文解析を行なう方法。未完成な部分解析木を表す活性エッジの娘ノードを解析して行く。トップダウン型、ボトムアップ型、縦型、横型、それらの混在が可能である。空文字列を生成するε規則も扱える。
チャンク (chunk)
本来の意味は「大きいかたまり」だが、自然言語処理の分野では言語学的観点による単語のまとまりを指すことが多い。英語の単名詞句 や日本語の文節 などがチャンクの代表的な例。
中間言語 (interlingua)
文の意味を表わすための人工言語で、どの言語の文も表現することが可能な、いわば言語に依存しない中間的な言語のこと。機械翻訳 において、原言語 の文を中間言語に変換し、中間言語を目標言語 に変換することで文を翻訳する方式を「中間言語方式」という。ある言語の文を複数の言語に翻訳する場合、中間言語方式では個々の言語と中間言語の間の変換プログラムさえ作ればよいので、中間言語方式は多言語機械翻訳に向いている。一方、世の中で使われてる言語には様々な差異があることから、あらゆる言語の文の意味を表現可能な中間言語を設計すること自体が困難であるという問題もある。
注釈付きコーパス (annotated corpus)
→「タグ付きコーパス 」
抽象名詞 (abstract noun)
抽象的な概念を表わす名詞。「愛」「思想」「感情」など。反義語は具体名詞 。
チョムスキーの階層 (Chomsky's hierarchy)
文法を複雑さにより分類した4つの階層。複雑な(規則に関する制約の緩い)順に、0型文法、文脈依存文法、文脈自由文法、正規文法という。それぞれに対して、受理するオートマトンの階層は、チューリング機械、線形拘束オートマトン、プッシュダウンオートマトン、有限オートマトンとなる。
ツリーバンク (treebank)
統語構造付きコーパスの別名。最初に大規模な統語構造付きのコーパスを作成したペンシルバニア大学のグループが、そのコーパスを“Penn Treebank”と呼んだことから、以後、統語構造付きのコーパスを一般にツリーバンクと呼ぶようになった。 Penn Treebankは第1版が約160万語、第2版が約100万語の規模のコーパスである。また、第2版からは統語構造から述語-項関係が抽出しやすいようにタグ形式が工夫されている。
TEI (Text Encoding Initiative)
テキストを電子化するための記述形式の標準化の一種。具体的にはSGMLのDTDのインスタンスとして定義されており、テキストのジャンル、内部構造、参照関係など多様な情報の記述形式を規定している。1987年から米国の3つの学会 (The Association for Computers and theHumanities、The Association for ComputationalLinguistics、The Association for Literary andLinguistic Computing)が中心となっておこなった活動で、1994年に提案書第3版 (TEI P3)を成果として公開している。
TF・IDF重み付け (TF IDF weighting)
情報検索においてよく用いられる索引語の重み付け方法。TF(term frequency)は文書における索引語の頻度、IDF(inverted document frequency)は索引語が現われる相対文書頻度の逆数の対数であり、両者の積を索引語の重みとする。
D構造 (D-structure)
改訂拡大標準理論以降、生成文法において、変形文法の「深層構造(deep structure)」の代わりに使われるようになった用語。関連用語=「深層構造 」
手がかり句 (cue phrase)
談話において話題が転換することを表す典型的な言い回しのこと。英語の場合、“first”や“by the way”など。
手がかり語 (cue phrase)
談話構造解析 における「手がかり句 」のこと。「合図句」ともいう。また、一般に、何らかの処理において重要な役割を果たすキーワードや、学習素性 を表わす用語として使われることもある。
適合文書 (relevant document)
情報検索 において、検索質問の要求を満たす文書のこと。言い換えれば、ユーザがその文書を読むことによって自分の質問の答えを知ることができる文書のこと。情報検索は、文書集合から適合文書を探し出す処理であると定義できる。
適合率 (precision)
情報検索システムの性能を表す評価尺度の1つで、次の式で計算される。適合率=(検索結果のうち、検索意図に適合する項目数)/(検索結果として出力された項目数) 「精度」ともいう。
テキスト含意認識 (recognizing textual entailment; RTE)
→「含意認識 」
テキスト生成 (text generation)
意味構造を入力とし、その意味構造が持つ意味を表わすテキストを生成する技術。
電子化辞書 (electronic dictionary)
紙に印刷された辞書に対して電子媒体に内容を格納した辞書。特に、紙媒体で出版された辞書をそのまま電子化したものを機械可読辞書ということもある。電子化辞書は、コンピュータによる自然言語処理に用いるために編集されたものと、人間が利用するために編集されたものに大別できる。後者の場合、辞書をハイパーテキスト化したりマルチメディア化することによって紙媒体の辞書では不可能な利用形態も可能となる。
同音異義語 (homonym)
発音と綴りの両方またはどちらかが同じで意味の異なる語。綴りとの関係を正確に表せば同綴り同音異義語、異綴り同音異義語などとなる。たとえば「こうえん:講演, 公園, 公苑, 公演, 後援, 好演, 香煙...」は異綴り同音異義語の例である。関連用語=「多義語 」
同義語 (synonym)
広い範囲において意味が同じで、交換可能であるような語。関連用語=「表記ゆれ 」
統計的機械翻訳 (statistical machine translation; SMT)
機械翻訳 の方式のひとつで、大量の対訳コーパス から学習された統計情報を基にした手法。原言語の文をF、目標言語の文をEとすると、P(F|E)P(E) という確率を求め、これを翻訳のスコアとする。
P(F|E)は翻訳モデルと呼ばれ、FがEにどれだけ正確に翻訳されているかを評価する。一方、P(E)は言語モデルと呼ばれ、Eが目標言語の文としてどれだけ自然であるかを評価する。これらの確率モデルは対訳コーパスから推定される。訳文の候補の中から確率 P(F|E)P(E) が最も高いものが最終的な訳文として選択される。また、確率最大の文Eを求めるモジュールは一般にデコーダーと呼ばれる。
P(F|E)は単語単位で翻訳の良さを評価することが多いが、近年では句単位で翻訳の良さを評価する句ベース統計的機械翻訳(phrase based statistical machine translation)や部分木単位で翻訳の良さを評価する木ベース統計的機械翻訳(tree based statistical machine translation)も研究が進んでいる。
統語構造 (syntactic structure)
文の構文的な構造のこと。構文木 と同じ。
統語範疇 (syntactic category)
→「文法範疇 」
統語論 (syntax)
言語学で、単語が句や文節を形成して、それらが文を構成する規則を明らかにする分野。
動作性名詞 (eventive noun)
→「事態名詞 」
頭字語 (acronym)
複合語の頭文字をつなげてできた略語。長い固有名詞 を省略するときによく使われる。
ASEAN (Association of South‐East Asian Nations),
UNESCO (United Nations Educational, Scientific and Cultural Organization) など。
NLP (Natural Language Processing / Night Landing Practice) のように曖昧性のあるものもある。
投射 (projection)
Xバー理論 において、語Xと他の要素とが組み合わさってできる統語範疇のこと。Xn と表記される(nは正の整数)。
統率・束縛理論 (government and binding theory)
チョムスキーによって提唱された生成文法理論の一つ。統率、束縛という概念は文法の局所性(たとえば再帰代名詞の解釈)を説明するのに導入されたもの。‘GB theory’, ‘GB理論’ と略される。
独話 (monolog)
講演、ニュースなどのように、一人が話を行うこと。cf. 対話は二人で話す(聞く)こと、会話は二人以上で話す(聞く)こと。
富田法 (Tomita's method)
→「一般化LR法 」
トライグラム (tri-gram)
記号、事象などの3個の並び。確率言語モデルにおけるトライグラム・モデルは、記号の生起確率が直前の2つの記号のみに依存すると考えるもの。関連用語=「n-グラム 」
トライ構造 (TRIE structure)
検索キー集合の共通最左部分文字列を併合して得られる木構造のこと。たとえば、「あい」、「あいあい」、「あいあん」、「あいうち」、「あいうつ」の5つの検索キーから生成したトライ構造は図のようになる。図において“$”は検索キーの末尾を表わすための特殊な文字である。トライ構造を用いて検索するには、検索文字列を左から順に走査しながら、木の根(節点(a))から弧に付与された文字を手がかりに木をたどる。木の葉の部分にはその検索キーに対する情報が格納される。トライ構造を用いると検索キーの数によらず検索文字列に比例した時間で検索ができる。
内容語 (content word)
→「自立語 」
人称 (person)
文法において、代名詞が何を指すかを区別するカテゴリ。話し手自身を指す一人称、聞き手を指す二人称、それ以外の第三者を指す三人称の3種に分ける。
ノード (node (in a tree))
木構造における節点。
延べ語数 (number of token)
テキスト中に出現する単語の総数。関連用語=「異なり語数 」
2-グラム (bi-gram)
n-グラム において、n=2であるもの。確率言語モデルにおける2-グラム・モデルは、記号の生起確率が直前の記号のみに依存すると考えるもの。
バインド (bind)
「束縛理論 」(binding theory)の項参照。
Baum-Welchアルゴリズム (Baum-Welch algorithm)
隠れマルコフモデルのパラメタ推定アルゴリズム。「Forward-Backward アルゴリズム」とも呼ばれる。関連用語=「前向き確率 」「後向き確率 」
派生 (derivation)
語幹 に接辞が付与されて新しい語が作られる現象のこと。例えば、‘able’という形容詞の語幹に‘un’という接頭辞が付与されて‘unable’という語ができ、「暑い」という形容詞の語幹「暑」に「さ」という接尾辞が付与されて「暑さ」という語ができる。
派生語 (derivative)
派生 によって生成された単語。
バックトラック (backtrack)
複数の選択肢がある探索において、ある時点で探索が失敗した時、直前の選択肢までもどって別の選択を試みること。単一化と共にプロローグ (Prolog)の基本機能の一つになっている。
パッセージ検索 (passage retrieval)
webページ、論文などについて、文章ひとかたまりではなく、段落あるいは数段落を単位として、pinpointの検索を行う場合をさす。QA(質問応答)システムなどにおいて、答えが含まれそうな場所をしぼる場合などによく使われる用語。
発話 (utterance)
人によって発せられた文もしくは句のこと。対話における個々の発言を指すことが多い。
発話意図 (communicative intention)
対話において、発話者が発話を行う意図のこと。応答、確認、質問、命令などがその例。
発話行為 (dialog act)
→「対話行為 」
発話単位 (utterance unit)
対話 において、話者が発する単語の基本的なまとまりのこと。発話数を数えたり、発話に対話行為 などの付加情報を付与したりするために定義される。一人の話者のひとつづきの発話(もう一人の話者の発話が終わってから次の発話が始まるまで)を発話単位とすることが多いが、一人の話者のひとつづきの発話を複数の発話単位に分割するときもある。発話単位は、対話システムの処理単位や、タグ付きコーパス作成時に情報を付与するのにふさわしい単位として定められる。
発語内行為 (illocutionary act)
「開会します」という宣言や、約束・警告などで顕著であるように、発話の行為遂行的な面を述べたもの。
話し言葉 (spoken language)
人間が相手と話をするときに用いられる言葉遣い。話し言葉には、省略、「それ」「あれ」のような照応表現、倒置、非文、言い淀み、言い直し、言い誤り、フィラーが多く現われるという特徴がある。つまり、文法から逸脱した文が使われることが多いため、書き言葉 よりも処理が難しいとされている。
パラメータ (parameter)
媒介変数、あるいは、(特にコンピュータ言語の関数呼び出しにおいて)引数(argument)とも呼ばれる。予め定まっている値ではないが、計算などを開始したり、モデル空間の中から1つのインスタンスを決定したりする際には、最初に定数値が与えられる変数のこと。また特に生成文法では、人間が生得的に持っている普遍文法(Universal Grammar; UG)の各種パラメータをセットすることによって、個別言語の文法が習得されるとする。主辞(head)が句の先頭に来るか末尾に来るかは、そうしたパラメータの例とされている。
パラレルコーパス (parallel corpus)
→「対訳コーパス 」
範疇 (category)
「文法範疇 」のこと。
PRO (PRO)
生成文法において、不定詞節や動名詞節の主語として存在するとする空の要素のこと。たとえば、“John decided to leave.” という文に対しては、to の前に空の(目に見えない=音形のない)要素PROがある(John decided PRO to leave.)という分析をする。空の要素にはこのほかに移動による痕跡や、日本語やイタリア語などの時制文の主語に現れる空の代名詞proがある。PROをproと区別するために前者を大文字のPRO、後者を小文字のproと呼ぶことがある。
POS (POS)
「品詞 」のこと。Part-of-speechの略記。
BDIモデル (BDI model)
知的な行為(対話等)に必要な7要素のうち、行為者の認知的状態に関する3要素を考慮したモデルのことを、それらの頭文字をとりBDIモデルと呼ぶ。3要素とは、信念(berief)、欲求(desire)、意図(intension)である。また、残りの4要素は、認識(perception)、プランニング(plannning/resolusion)、決定(commitment), 行為(action)といった手続きに関わるものである。
ピッチ (pitch)
声帯の周期的波動に起因する有声音の音声波にみられる、ほぼ周期的な繰り返しの間隔をいう。
否定辞 (negative)
否定を表わす語。「ない」「ん」など。
評価セット (test set)
訓練セットから獲得したパラメータが適切なものかどうかを評価するためのデータ。このデータはパラメータの学習には使わない。
評価表現 (evaluative expression)
何らかの対象に対する主観的な評価を表わす表現。例えば、「~に賛成だ」のような肯定的意見、「~はダメだ」のような否定的意見、「~は使いやすい」のような評判を述べる表現がある。評価を表わす語や複合語を指すこともある。
表記ゆれ (variant)
送り仮名の違い、長音の有無、字種違いなどの同じ単語であっても異なる表記。関連用語=「同義語 」
表層構造 (surface structure)
生成文法において、統語的変形を受けた後の文の構造。たとえば、受身文の目的語は、深層構造においては動詞の目的語の位置にあるが、表層構造においては、文の主語の位置に移動している。ただし、実際に発話される文は、音韻規則の適用を受けるので必ずしも一致しない。そのため、この構造のレベルは、変形文法の時代には表層構造とよばれたが生成文法においてはS構造と呼ばれるようになった。
評判情報 (reputation)
製品、商品、サービスなどに対する使用者の感想や意見のこと。クチコミサイトなどでユーザが評判情報をウェブ上に公開することも多く、ウェブから評判情報を自動的に獲得、分類する技術に関する研究が近年盛んになっている。
平文コーパス (raw corpus)
単にテキストを集めたデータで、言語的な情報が何も付与されていないコーパス のこと。関連用語=「タグ付きコーパス 」
品詞 (part-of-speech; POS)
語や句の統語的性質に基づく分類。「範疇(category)」と呼ばれることもある。
品詞タグ付け (part-of-speech tagging)
文中の単語に品詞を与える処理。英語では品詞の多義性が強いので特に重要。
フィラー (filler)
発話中の「あのー」「えーと」など、会話の間を埋めるために発っせられるほとんど意味のない語のこと。音声認識で問題となる。
フォーカス (focus)
→「焦点 」
付加詞 (adjunct)
述語(動詞、形容詞など)とともに現われ、述語の意味を補完する役割を果たす要素。項 とは異なり、必ずしも文中に現われなくてもよいとされる。時間や場所を表わす句が該当することが多い。例えば、“Mary read a book in a park” という文では、‘in a park’ が付加詞になる。
park は動詞 read と関係を持ち、read という動作が行われた場所を表わすが、read は常に場所を表わす語を伴うわけではない。
付加部 (adjunct)
付加詞 のこと。また、Xバー理論 においては、バーレベルを変えない投射(通常バーレベル1から1)において付加される句を指す。
複合辞 (compound functional expression)
「に対して」「なければならない」のように、複数の語によって文法的機能を表わす表現。
袋小路文 (garden path sentence)
→「ガーデンパス文 」
付属語 (function word)
→「機能語 」
普遍文法 (universal grammar)
人間が生まれながらに脳内に持っている、「言語」に対する「知識」。いくつかの原理と未決定のパラメータからなっており、個別の言語に接することによりパラメータの値が決定されて個別言語の文法が習得されると考えられている。
BLEU (BLEU)
機械翻訳 の良さを自動的に評価するための評価尺度。人間が作成した翻訳文と機械翻訳システムが出力した翻訳文に含まれる単語n-グラム の重なりを基にスコアを定義する。複数の機械翻訳手法の優劣を客観的に評価できるという利点はあるが、BLEUのスコアは必ずしも翻訳の良さを表わしていないという批判もある。
ブログ (blog)
Weblog(ウェブログ)の略称で、もともとは「自分が見つけた面白いWebページのリンクとそれに対するコメントからなる個人サイト」を指す言葉。それが、当初のコメント付きリンク集にとどまらず、日記、エッセイ、写真ギャラリーなど、多岐にわたる個人の情報発信形態として普及したもの。
プロローグ (Programmation en Logique; PROLOG)
ホーン節に基づく論理型プログラミングのためのプログラミング言語。1階述語論理による推論の処理に適している。1972年にフランスのマルセイユ大学において開発された。
文圧縮 (sentence compaction)
与えられた文に対し、一部の単語を削除して、なるべく元の意味を損わないように文の長さを短かくする処理。文内で重要度の低い単語を識別したり、圧縮後の文が自然な文になっているかを検証する必要がある。要約 で用いられる要素技術のひとつ。
分割表 (contingency table)
定性的なデータの統計情報の表現形式。言語処理の分野では手法の評価に使われることが多い。例えば、情報検索エンジンの評価を行う際には以下のような2×2の分割表が使われる。EとE'はそれぞれ検索エンジンが検索質問に適合する/しないと判定した文書を、CとC'は実際にその文書が検索質問に適合する/しない文書を表わす。
文書分類 (text categorization)
文書をその内容によって複数のクラスに分類すること。事前に分類した結果をトレーニングデータとして用いる分類を教師あり分類、トレーニングデータを用いない分類を教師なし分類と呼ぶ。
文書ベクトル (document vector)
文書(テキスト)の特徴を表わすベクトル。一般には、ベクトルの次元にテキスト内に出現する単語を割り当てて、その単語の重みを値とするベクトルが多い。情報検索 、文書分類 などの場面で用いられる。
文節
日本語における言語単位。一般に、1つ以上の自立語 とそれに続く0個以上の付属語 から構成される。例えば、「太郎はおいしいリンゴを食べたかった」という文は「太郎は / おいしい / リンゴを / 食べたかった」という4つの文節に分けられる。日本語の構文解析は、文節間の係り受け関係を決める問題と定義されることが多い。
分布類似度 (distributional similarity)
単語の類似度のひとつ。個々の単語について、それと共起する他の語とその頻度をコーパスから求め、頻度分布がどれだけ似ているかによって二単語間の類似度を算出する。
文分割 (sentence segmentation)
与えられたテキストを文に分割する処理。英語ではピリオド(.)、日本語では句点(。)で文に区切るという方法が一般的ではあるが、‘Mr.’ のような場合にはピリオドで文を区切らない、『太郎は花子が「明日、帰る。」と言ったのを聞いた。』のように引用文の中の句点では文を区切らないなど、いくつかの例外処理を考慮する必要がある。
文法 (grammar)
言語の構成要素間の関係を分析・記述するもの。形式言語理論においては任意のアルファベット列の中から文を規定するもの。
文法範疇 (grammatical category)
文法上同じ機能を果たす単語のまとまりのこと。統語範疇ともいう。例えば、S(文)、NP(名詞句)、VP(動詞句)、N(名詞)、V(動詞)などは英語の代表的な文法範疇である。
文脈依存言語 (context sensitive language)
形式言語のクラスのひとつで、文脈依存文法が生成する言語の集合のこと。関連用語=「文脈依存文法 」
文脈依存文法 (context sensitive grammar; CSG)
チョムスキーの階層における形式文法の一種。規則をα→βとしたとき、βの長さ(記号数)がαの長さよりも大きいという制約を満たす文法を指す。
文脈自由文法 (context free grammar; CFG)
書き換え規則の左辺が一つの非終端記号に限定される文法。自然言語の文のほとんどは文脈自由文法で記述可能とされる。プッシュダウンオートマトンにより受理される。
分類器 (classifier)
未知のデータを分類してそのカテゴリを決定するモデルもしくはプログラムのこと。機械学習 で自動的に学習されるモデルを指すことが多い。
平滑化 (smoothing)
→「スムージング 」
ベイジアンネットワーク (Bayesian network)
確率的推論を行うためのデータ構造。確率変数をノードとし、直接影響を及ぼすと考えられる確率変数間をリンクで結んだもので、結合確率分布の簡明な表現を与える。信念ネットワーク(belief network)、確率ネットワーク(probabilistic network)、因果ネットワーク(causal network)、知識マップ(knowledge map)、意思決定ネットワーク(decision network)、影響図(influence diagram)などとも呼ばれている。エージェントアプローチ人工知能15章に詳しい説明がある。
ベイズ規則 (Bayes' rule)
結果(B)から原因(A)を推測する魔法のような確率規則で、P(A|B) = P(B|A)P(A) からなる。P(B|A)は原因(A)が生起したときに結果(B)が生起する条件付き確率で、この確率は推定が容易な場合が多い。一方、事前確率と呼ばれるP(A)は一般に推定が困難であり、しばしば議論の的となる。
並列構造 (coordinate structure)
等位接続詞や読点(もしくはカンマ)で結ばれた句から構成され、句同士が並列の関係にあることを表わす構造。例: “dogs and cats”, “リンゴ、みかんとパイナップル”
並列構造解析 (coordination analysis)
与えられた文中の並列構造を同定する処理。一般的な手続きは、まず等位接続詞を検出し、それによって結ばれかつ並列関係にある句の範囲を推定する。
ベースライン (baseline)
手法の良さを評価する際に、その手法との比較の対象となる単純な手法のこと。例えば、文節の係り受け解析なら、係り得る最も近い文節に係り先を常に決定する手法がベースラインとなる。手法の有効性を実証するには、少なくともベースラインを越えなければならないといえる。
変形文法 (transformational grammar)
初期の「生成文法(generative grammar)」の呼び方。実際の文が、基底となる構造にいくつかの変形操作を加えた結果、生成されるとする文法理論。変形生成文法(transformational generative grammar)とも呼ばれる。Noam Chomskyにより確立された。たとえば、受身文は、能動文(的な構造)に受動変形を加えて得られるとする。変形を加える前の構造を基底構造、変形を加えた後の構造を表層構造と呼ぶ。関連用語=「生成文法 」
法性 (modality)
→「モダリティ 」
補部 (complement)
句の中心となる要素(主要部、head)にとって必須の項、内項。句構造において主要部と姉妹の位置を占める。任意要素の付加部(adjunct)や指定部(specifier)と区別される。
翻字翻訳 (transliteration)
ある言語の表記を別の文字体系の言語の表記に変換する処理。単に「翻字」ともいう。英語で表記された人名をカタカナで表わすのは翻字翻訳の典型的な例である。機械翻訳 の要素技術のひとつで、特に固有名詞 の翻訳に必要とされる。
翻訳 (translation)
ある言語で記述されたテキストを、別言語のテキストへと変換する処理。
翻訳支援 (translation aid)
翻訳者による翻訳作業の負担を軽減する技術のこと。辞書引きの支援、過去の類似例文の翻訳例の提示、作成した訳の文法的な誤りのチェック、機械翻訳 の結果を示してそれを翻訳者が修正する、など様々な機能や方式が考案されている。
翻訳メモリ (translation memory; TM)
用例ベース機械翻訳 で用いられる知識データベースで、原言語 と目標言語 の翻訳対の集合。一般的には、単なるパラレルコーパス ではなく、単語や句のアライメントも付与されている。
前向き確率 (forward probability)
隠れマルコフモデル (HMM, hidden markov model)において、初期ノードからあるノードまでにある時系列データが生成される確率のことを前向き確率という。トレリス上を前向きに辿り動的計画法により順次求めることから前向きという名前が付いている。同様に、後向きに辿る後向き確率 (backward probability)もある。隠れマルコフモデルのパラメータ推定アルゴリズム(Baum-Welchアルゴリズム )では、前向き/後向き確率両方を用いてパラメータ推定に必要な確率を計算する。
マルコフ過程 (Markov process)
事象の列が生起する場合を考える。ある事象の生起確率がその事象の直前に生起したいくつかの事象のみに依存するとき、これをマルコフ過程と呼ぶ。関連用語=「マルコフモデル 」「n-グラムモデル 」
マルコフモデル (Markov model)
ある事象が生じる確率はその直前に生じたn個の事象のみに依存すると仮定し、事象の生成確率を近似する確率モデル。n-グラムモデル はマルコフモデルの例。
マルチモーダル (multi modal)
聴覚や視覚情報など、人間の脳が知覚できる複数の情報を利用して情報伝達を行うこと。
見出し語 (headword)
単語辞書 において、辞書項目として示された単語。辞書検索の際に検索キーと照合される単語。
未知語 (unknown word)
辞書に登録されていない単語のこと。
未定義語 (unknown word)
→「未知語 」
無標 (unmarked)
「有標 」の項参照。
名詞格フレーム (noun case frame)
格フレーム は用言が意味を成すために必須とされる要素から構成される意味的な構造であるが、この考え方を名詞に拡張したもの。名詞の意味を解釈する上で必須となる要素から構成される。例えば、「本」の格フレームは「所有者」や「本の題材」という必須要素から構成される。
目標言語 (target language)
機械翻訳 において、言語Aの文を言語Bに翻訳するとき、翻訳後の言語Bのこと。関連用語=「原言語 」
モダリティ (modality)
話し手の判断や感情を表わす言語表現のこと。例えば、「試験に合格するだろう」や「試験に合格しなければならない」といった文は、「試験に合格する」という命題に対する話し手の推測や決意が表現されている。「法性」と呼ばれることもある。
有限オートマトン (finite automaton)
形式言語を定義するオートマトンの一種。テープと状態制御部から構成され、テープ上の記号を左から右へ1つずつ読みながら状態遷移を繰り返し、最後に到達する状態によってテープ上の記号が形式言語に属するか否かを判定する。有限オートマトンで定義される形式言語は正規言語と呼ばれる。
ユーザモデル (user model)
人と機械との対話システム において、システムが推測する人間側(ユーザ)の信念や状態を表わすモデルのこと。円滑な対話を実現するためには、ユーザがどのような事実を把握しているか、あるいは把握していないのかなど、ユーザの状態を正確に推測する必要がある。
優先度学習 (preference learning)
機械学習 のひとつで、複数の事象間の優先順位または優先度(スコア)を学習する手法。自然言語処理分野でも、曖昧性 が生じたとき、優先度学習を用いて各候補の優先順位を求めて曖昧性解消 を行う研究が報告されている。
有標 (marked)
生成文法 の用語。言語現象のうち一般的な原理によって説明可能な事象を無標(unmarked)、そうでない事象を有標(marked)、であるという。たとえば、Yes-No疑問文では、英語では、Do you speak English? というようにDoを前に入れるが、多くの言語ではParlez-vous anglais? のように、動詞そのものを前に出す。この場合、後者が無標、前者が有標とされる。
EuroWordNet (EuroWordNet)
プリンストン大学で開発されたWordNet の多言語版。1996年から3年間かけてEUのHuman Language Technologyプログラムのひとつとしておこなわれたプロジェクトによって作成された。対象言語はオランダ語、スペイン語、イタリア語、ドイツ語、フランス語、チェコ語、エストニア語、英語で、互いに関連する語にはリンクが張られている。また、上位のオントロジーはできるだけ共有するという方針で作成されている。
様相 (modality)
文中において、発話者・著者の意図を表す表現。“~はずだ”、“must”など。
要望文 (sentence of demand)
「~してほしい」「~が望ましい」「~ば嬉しい」のように要望を表わす文。要望文をテキストから検出することは評判情報 処理における重要な要素技術である。
要約 (summarization)
テキストの内容をより短かい文章で簡潔にまとめる処理。または短かくまとめられた文章のこと。前者は「自動要約」とも呼ばれる。
要約率 (summarization rate)
要約 において、元のテキストの文字数(もしくは文数)に対する作成された要約の文字数(文数)の割合。要約率はユーザが自由に指定できるようにするべきものであり、自動要約システムは指定された要約率に応じて要約を生成できることが望ましい。
用例ベース機械翻訳 (example based machine translation; EBMT)
機械翻訳 の方式のひとつ。まず、翻訳メモリ と呼ばれる原言語と目標言語の翻訳対(翻訳の用例)を用意する。翻訳対象文に対し、それと最も似ている用例を翻訳メモリの中から探索する。最後に翻訳メモリ内の目標言語の文を訳文として出力する。ただし、翻訳対象文と文単位で一致する用例が翻訳メモリに存在することは稀なので、翻訳対象文の一部にマッチする句や節を翻訳メモリから探し出し、いわば部分訳を組み合わせて最終的な訳文を作ることが多い。意訳や比喩的な文など、人間による翻訳に近い訳文が得られやすいと言われる。ただし、翻訳メモリの探索に時間を要するため、用例ベース翻訳の計算コストは一般に高い。
与格 (dative)
間接目的語に与えられる表層格。たとえば、I gave him an apple. という文において、him は、与格であるとする。(現代)英語においては目的格と区別されないが、フランス語などでは Je lui ai donné une pomme. のluiのように対格 le とは別の形を取る。格文法 においては、述語によって影響を受ける有生物を表す深層格 。
ラムダ計算 (lambda calculus)
アルゴリズムの記述のために開発された関数の表記法、または、それを用いた計算手法。1920年代、A. チャーチにより開発された。
リーフ (leaf (in a tree))
木構造において子をもたないノード。
リスプ (list processor; LISP)
記号処理のために開発されたプログラミング言語。1960年代初頭、J. マッカーシーにより開発された。
類義語 (similar word)
意味が似ている語。どのような観点で2つの単語が「似ている」を定義するかによって、様々なタイプの類義語がある。類義語を定義する方法としては、シソーラス を使う方法や、統計的尺度によって定義する方法(分布類似度 )などがある。
類似語 (similar word)
→「類義語 」
ROUGE (ROUGE)
要約 の良さを自動的に評価するための評価尺度。機械翻訳の評価尺度BLEU と同じように、人間が作成した要約とシステムが作成した要約に含まれる単語n-gramの重なりを基にスコアを定義する。
ROUGEのスコアを計算するソフトウェアの名称でもある。参考ページ: ROUGE
ルールベース機械翻訳 (rule based machine translation)
機械翻訳 の方式のひとつで、人手で作成したルールにしたがってある言語の文を別の言語に翻訳する手法。翻訳対象文に適用できるルールが存在するときは正確な訳文を生成できるが、実用的な翻訳システムを構築するためには膨大な数のルールを人手で用意する必要がある、多くのルール間の整合性を常に考慮する必要がある、といった問題点もある。機械翻訳研究の初期に研究されていたが、最近では統計的機械翻訳 方式の方が主流になりつつある。ルールベース翻訳は、例外的な翻訳パターンを記述するのに適しており、他の翻訳方式と組み合わせて用いることも有望なアプローチである。
連語 (collocation)
特に連続して出現しやすい複数の語のこと。
連用句 (adverbial phrase)
用言に係る句のこと。
ロジェ (Peter Mark Roget)
19世紀に英語の類語辞典を編纂し、これをシソーラスと名付けた人。このロジェのシソーラスは現在まで追加・修正が続けられ、出版されている。単にロジェといってこのシソーラスをさす場合もある。
論理形式 (logical form; LF)
生成文法理論において、文の表層構造の背後にある論理的構造を表す形式。
WordNet (WordNet)
プリンストン大学で開発された英語のシソーラス。約12万語を分類、整理している。WordNetは人間の持つ語彙知識を心理言語学的に研究することを主たる目的として編集されたが、自然言語処理の研究にも利用されている。WordNetは語を文法的な観点から品詞別に分類し、それぞれの分類をさらに意味的な観点から分類している。動詞、名詞について上位語(hypernym,superordinate)下位語(hyponym,subordinate)の関係、形容詞については対義語(antonym)の関係を中心としている。WordNetはコンピュータを利用して検索すること前提に編集されている点も特徴である。