Lucene/Solrの活用方法
昨今のインターネットの普及、CGM(Consumer Generated Media)の普及によって私たちが接する情報量は爆発的に増大しています。
その中から私たちが探したい情報を見つけ出すこと、または情報を分析することが困難になっています。
また、情報を提供している側にとってもユーザーが情報を素早く見つけやすくする必要性があります。(ファインダビリティの向上)
このような状況のなかで、超高速高性能な検索エンジンのニーズは高まっております。そこで私たちはオープンソース検索エンジンの【Lucene/Solr】をご紹介します。
Lucene/Solrの利用例
私たちがLucene/Solrに注目したのは、その圧倒的な検索パフォーマンスとスケーラビリティなのですが、ここではLucene/Solrが持っている機能を使ってどのようなことが出来るのかを具体的にご紹介したいと思います。
社内文書検索
毎日の日々の業務で社内のファイルサーバーには大量のオフィス文書が蓄積されていきます。基本的にはフォルダ構成、ファイル名によって文書を見つけやすくしている場合が多いかと思います。
ただし、文書の内容で検索することはできませんし、フォルダ構成が変更になってしまうこともあり、検索し易いとは言いがたいのが現状です。
Lucene/Solrには【Apache Tika】というリッチドキュメントからメタデータを抽出するためのフレームワークが組み込まれており、オフィス文書を全文検索することが可能になります。
また、Lucene/Solrの機能を使えば以下のようなことも可能です。
- 文書に含まれるキーワードのファセット表示
- 類似文書の検索
- クラスタリング機能による関連キーワード表示
アンケート分析、人事評価分析
さまざまなアンケートや人事評価を集計、分析することがあるでしょう。定形項目であればExcelなどで集計することもできるでしょうが自由入力項目はどうでしょうか?現在でも人が1件づつ見て集計、評価している場合も多いのではないでしょうか。
ここでもLucene/Solrの機能を使って以下のようなことをすれば、よりデータを活用することができるかもしれません。
- 自由入力項目から「名詞」「動詞」を抽出してファセット表示(「面白い[10件]、つまらない[3件]など」)
- 類似した意見のを抽出(悪い意見、良い意見それぞれで類似したものの分析)
- クラスタリング機能による分析(「研修」→「面白い」、「声」→「大きい」など)
位置情報検索
Lucene/Solrには位置情報検索機能があります。Google Mapsなどの地図上に位置情報をマッピングすることができます。
また、最近のスマートフォンにはGPS機能が備わっており自分が現在いる周辺の情報を検索することもできます。
- 近くにあるコンビニを探したい
- 近くにあるラーメン屋で評価の高いお店を探したい
コールセンター問い合わせサポート
コールセンターには毎日のように数百件~数千件の問い合わせがきます。ほとんどの場合はCRM/CTIを活用していることでしょう。
ここにLucene/Solrを活用させればさらに顧客満足度は向上するのではないでしょうか。
- 顧客を待たせることなく過去に似た事例を素早く検索する
- 過去の事例を分析し、最適な回答をすることができる
データ・クレンジング、名寄せ
企業の中にあるデータは必ずしも重複がないとは言えません。データが重複していることによってデータが上手く活用されていないケースもあります。
Lucene/Solrのファジー(あいまい)検索、類似検索を使うことによって、データの重複を取り除く(またはマージする)手助けになるのではないでしょうか。