執筆:金子冴
校閲:内野良一
今回は,形態素解析器であるMeCab,Chasen,JUMANで解探索アルゴリズムに採用されているViterbiアルゴリズム(Viterbi algorithm)について解説する.
執筆:金子冴
校閲:内野良一
今回は,形態素解析器であるMeCab,Chasen,JUMANで解探索アルゴリズムに採用されているViterbiアルゴリズム(Viterbi algorithm)について解説する.
執筆:金子冴
校閲:内野良一
今回はマルコフモデルと,マルコフモデルを拡張した隠れマルコフモデルを題材に,それぞれのモデルの解説と2つのモデルの違いについて解説する.
まずはマルコフモデルについて解説しよう.
執筆:金子冴
校閲:内野良一
今回は,形態素解析器の1つであるMeCab内で学習モデルとして用いられているCRF(Conditional random field)について解説する.
初めに,CRFのwikipediaの定義を確認しよう.
執筆:金子冴
校閲:内野良一
今回は,形態素解析器の1つであるMeCab内で解析モデルとして用いられているbi-gram マルコフモデルについて解説する.
初めに,bi-gramの元となっている,N-gramという手法を解説しよう.
執筆:金子冴
校閲:内野良一
今回は,自然言語処理分野の主要なテーマである形態素解析に着目し,形態素解析を行う目的の確認や,形態素解析器の比較を行う.
また,形態素解析器の1つであるMeCab内で用いられている以下のような代表的なアルゴリズムについて,後続の記事でその内容をそれぞれ解説する.
●bi-gram マルコフモデル(解析モデル)
●CRF(Conditional Random Fields)(学習モデル)
●Viterbi(解探索アルゴリズム)
初めに,形態素解析の概要とメリット,注意点について確認しよう.
執筆:金子冴
校閲:内野良一
前回の記事(【技術解説】似ている文字列がわかる!レーベンシュタイン距離とジャロ・ウィンクラー距離の計算方法とは)では,文字列同士の類似度(距離)が計算できる手法を紹介した.また,その記事の中で,自然言語処理分野では主に文書,文字列,集合等について類似度を計算する場面が多いことについても触れた.今回は集合同士の類似度を表現する以下の3つの係数と計算方法について解説する.
●Jaccard係数
●Dice係数
●Simpson係数
その前に,自然言語処理で類似度を表す指標について確認しよう.
執筆:金子冴
校閲:内野良一
人はだれしも間違いを犯すものである.徹夜で仕上げた報告書を提出した後,よく見直してみると誤字脱字が山ほど見つかった経験が読者にもあるだろう(もしかすると私だけかもしれないが).そういう時,もし自動で間違っている単語を見つけてくれるプログラムがあったら…と考える人もいるかもしれない.そこで今回は,文字列同士の似ている度合いを計算する2つの手法を紹介しよう.
●レーベンシュタイン距離(Levenshtein Distance)
●ジャロ・ウィンクラー距離(Jaro-winkler Distance)
執筆:金子冴
校閲:内野良一
世の中には単なるメモ書きから予算案,スポーツ記事や文学作品等,数えられないほどの文書が存在する.例えば,その数多の文書から「スポーツに関する記事が読みたい」と思った時,どれがスポーツに関する文書なのか判断する必要があるだろう.しかし,すべての文書を目で読んで判断することは到底不可能であり,現実的ではない.今回は,数多の文書に含まれる単語の重要度を測る手法であるTF-IDFとOkapi BM25について解説する.
言語処理な皆さん、こんにちは。CROの副島です。
1月25日、日経新聞さんに掲載されていた「AIで自動的に決算から記事を作成する」というのが、自然言語処理の勉強になるということで、6時間(約半日)でどこまで行けるか、実行してみました。
また、個人的に「経営の意思決定」に必要な情報として「営業利益、経常利益、売上高の昨対実数」を収集したかったのでそれもかねて。
記事の続きを読む