検索結果の「再現率」と「適合率」
■キーワード: 検索、システム、再現率、適合率、評価、recall、precision
動物の写真データ群から、検索システムを使って犬の写真を全て選び出したい。
どちらの検索システムが優れていると言えるだろうか。
システムA:
検索結果として50件ヒットした。すべてが犬の写真で誤りは1つもなかった。でも、データ群の中には取りこぼした犬の写真が70件あった。
システムB:
検索結果として200件ヒットした。そのうち、80件は誤りだったけど、データ群の中の犬の写真はすべて拾い出した。取りこぼしは0件だった。
どちらが優れているかは、その検索の目的によって異なる。
システムAは適合率 precision が高い。(適合率 1.0、再現率 0.41)
システムBは再現率 recall が高い。(適合率 0.6、再現率 1.0)
と評価される。
適合率と再現率の意味が直観的にわかるように、図を作ってみた。
適合率は、検索結果の中にどの程度正解が含まれるかを示す。
再現率は、正解のうち、どの程度が検索にヒットするかを示す。
一般に、再現率の高いシステムは適合率が低く、その逆に、適合率が高いシステムは再現率が低い傾向にある。
評価指標が2つあると、どちらのシステムが優れているか比較が難しいので、再現率と適合率の調和平均を取った値をF値(F-measure)という指標で性能を表すこともある。
F値 = (2×適合率×再現率)/(適合率+再現率)
検索結果に順位付け可能であれば、上位n件の結果についての適合率と再現率の値をプロットすると、Precision-Recall curve が得られる。この曲線は下図のように、右下がりの曲線になる。
この曲線が上の方に位置するものほど、優れた検索システムと言える。
(http://www8.org/w8-papers/2c-search-discover/results/results.html)
・参考
検索における適合率 (Precision) と再現率 (Recall)
情報科学CSコース情報システム講義ノート(田中克己、角谷和俊)PDF
Common Evaluation Measures (PDF)
Results and Challenges in Web Search Evaluation