(cache)ミエルカAI - ミエルカAIBLOG

今回は，自然言語処理分野の主要なテーマである形態素解析に着目し，形態素解析を行う目的の確認や，形態素解析器の比較を行う．
また，形態素解析器の1つであるMeCab内で用いられている以下のような代表的なアルゴリズムについて，後続の記事でその内容をそれぞれ解説する．
●bi-gram マルコフモデル(解析モデル)
●CRF(Conditional Random Fields)(学習モデル)
●Viterbi(解探索アルゴリズム)

初めに，形態素解析の概要とメリット，注意点について確認しよう．

記事の続きを読む

【技術解説】集合の類似度(Jaccard係数，Dice係数，Simpson係数)

執筆：金子冴
校閲：内野良一

前回の記事(【技術解説】似ている文字列がわかる！レーベンシュタイン距離とジャロ・ウィンクラー距離の計算方法とは)では，文字列同士の類似度(距離)が計算できる手法を紹介した．また，その記事の中で，自然言語処理分野では主に文書，文字列，集合等について類似度を計算する場面が多いことについても触れた．今回は集合同士の類似度を表現する以下の３つの係数と計算方法について解説する．
●Jaccard係数
●Dice係数
●Simpson係数

その前に，自然言語処理で類似度を表す指標について確認しよう．

記事の続きを読む

【技術解説】似ている文字列がわかる！レーベンシュタイン距離とジャロ・ウィンクラー距離の計算方法とは

執筆：金子冴
校閲：内野良一

人はだれしも間違いを犯すものである．徹夜で仕上げた報告書を提出した後，よく見直してみると誤字脱字が山ほど見つかった経験が読者にもあるだろう(もしかすると私だけかもしれないが)．そういう時，もし自動で間違っている単語を見つけてくれるプログラムがあったら…と考える人もいるかもしれない．そこで今回は，文字列同士の似ている度合いを計算する2つの手法を紹介しよう．
　●レーベンシュタイン距離(Levenshtein Distance)
　●ジャロ・ウィンクラー距離(Jaro-winkler Distance)

記事の続きを読む

【技術解説】単語の重要度を測る？TF-IDFとOkapi BM25の計算方法とは

執筆：金子冴
校閲：内野良一

世の中には単なるメモ書きから予算案，スポーツ記事や文学作品等，数えられないほどの文書が存在する．例えば，その数多の文書から「スポーツに関する記事が読みたい」と思った時，どれがスポーツに関する文書なのか判断する必要があるだろう．しかし，すべての文書を目で読んで判断することは到底不可能であり，現実的ではない．今回は，数多の文書に含まれる単語の重要度を測る手法であるTF-IDFとOkapi BM25について解説する．

記事の続きを読む

研究ブログ

【研究】日経新聞さんの記事作成AIを6時間で作れるかチャレンジしてみた(完全自動「決算サマリー」をみて)

言語処理な皆さん、こんにちは。CROの副島です。
1月25日、日経新聞さんに掲載されていた「AIで自動的に決算から記事を作成する」というのが、自然言語処理の勉強になるということで、6時間（約半日）でどこまで行けるか、実行してみました。
また、個人的に「経営の意思決定」に必要な情報として「営業利益、経常利益、売上高の昨対実数」を収集したかったのでそれもかねて。
記事の続きを読む

研究ブログ

【研究】連載：技術的側面からの検索エンジンの考察 ~第２回テキストマイニングの基本的手法（TF-IDF、LSI、LDA)~

第１回では、テキストマイニングの前段階となる形態素解析の仕組みから形態素解析を用いた行列化（BoW）などの基本事項について説明致しました。第２回では、行列化したテキストデータからどのように知見を取り出すかという話ができればと思います。
記事の続きを読む

人工知能・機械学習・自然言語処理周辺の技術情報

【技術解説】HMMに基づいたViterbiアルゴリズムによる解推定手法(例題つき)

【技術解説】マルコフモデルと隠れマルコフモデル

【技術解説】CRF(Conditional Random Fields)

【技術解説】bi-gramマルコフモデル

【技術解説】形態素解析とMeCabのアルゴリズム

【技術解説】集合の類似度(Jaccard係数，Dice係数，Simpson係数)

【技術解説】似ている文字列がわかる！レーベンシュタイン距離とジャロ・ウィンクラー距離の計算方法とは

【技術解説】単語の重要度を測る？TF-IDFとOkapi BM25の計算方法とは

【研究】日経新聞さんの記事作成AIを6時間で作れるかチャレンジしてみた(完全自動「決算サマリー」をみて)

【研究】連載：技術的側面からの検索エンジンの考察 ~第２回テキストマイニングの基本的手法（TF-IDF、LSI、LDA)~