kanetaiの二次記憶装置

プログラミングに関するやってみた、調べた系のものをQitaに移して、それ以外をはてブでやる運用にしようと思います。http://qiita.com/kanetai

評価尺度

Precision , Recall, F-measure, R-Precision

真の結果: t(true) or f(false)
検索結果: p(positive) or n(negative)

再現率(Recall)  R=\frac{tp}{tp+tn}
適合率(Precision)  P=\frac{tp}{tp+fp}
F値(F-measure)  F=\frac{2RP}{R+P}
F値は再現率と適合率の調和平均

マイクロ平均(micro average):システム指向の尺度(クエリを区別しない)

 R_{micro} = \frac{\sum_{i=1}^Q tp_i }{\sum_{i=1}^Q (tp_i + tn_i )}  P_{micro} = \frac{\sum_{i=1}^Q tp_i }{\sum_{i=1}^Q (tp_i + fp_i )}

マクロ平均(macro average):ユーザ指向の尺度(クエリを区別し、それらを等しく重要と考える)

 R_{macro}=\frac{1}{Q}\sum_{i=1}^Q \frac{tp_i}{tp_i + tn_i}  P_{macro}=\frac{1}{Q}\sum_{i=1}^Q \frac{tp_i}{tp_i + fp_i}
R-Precision  \frac{1}{R}\sum_{r=1}^{R}I(r)
   R=tp+tn:正解文書数
   I(r):検索結果 r位の文書が正解か否か(1 or 0)

MRR

Reciprocal Rank  RR_i = \frac{1}{r_i}
Mean Reciprocal Rank  MRR=\frac{1}{Q}=\sum_{i=1}^Q RR_i
 r_i はクエリ q_i (1\leq i \leq Q)の検索結果の(最も良い)正解出現順位

MAP

Average Precision  AP_i=\frac{1}{tp_i + tn_i}\sum_r I_i(r)\frac{count_i(r)}{r}
Mean Average Precision  MAP = \frac{1}{Q}\sum_{i=1}^Q AP_i
 I_i(r)はクエリ q_iの検索結果 r位の文書が正解か否か(1 or 0)
 count_i(r)はクエリ q_iの検索結果1位からr位までの累積正解数