微忘録

好奇心に記憶力がついていかない人のブログ

分類問題の評価指標をおさらいする

流行に敏感なのでインフルエンザB型に罹患しました。鼻奥の痛いあの検査の結果を待つ間に、「これ分類問題のやつだ!」と思い出し、評価指標をおさらいしたので備忘録。

分類問題の評価

分類問題を評価するとき、「真実の分類」と「推定の分類」の差異について考えます。評価の際には、結果をクロス集計表に落とし込んで簡便化することが一般的です。

具体例として、「インフルエンザ検査の診断性能を評価するために、検査結果の分類が真実の分類を正しく捉えているか調べる」という場合について考えます。 f:id:wtnVenga:20180125004936p:plain

全ての患者は以下の(1)~(4)の診断結果が与えられます。

  • (1)真陽性…インフルエンザ罹患者に、陽性と正しく診断
  • (2)偽陰性…インフルエンザ罹患者に、陰性と間違えて診断
  • (3)偽陽性…インフルエンザ以外の罹患者に、陽性と間違えて診断
  • (4)真陰性…インフルエンザ以外の罹患者に、陰性と正しく診断

診断結果(1)・(4)が高い検査は有用である一方で、(2)・(3)が高い検査は無用であると判断できます。

評価指標

評価指標は「正しさ」と「間違い」の2種が用意され、判断したい内容に合わせて評価指標を用いることが大事です。

「正しさ」を評価する指標

  • 適合率(Precision)…陽性と診断した中で、インフルエンザ罹患者の割合

     \dfrac{(1)}{(1)+(3)}

  • 再現率(Recall)…インフルエンザ罹患者に、陽性と診断した割合

     \dfrac{(1)}{(1)+(2)}

  • F値(F-meansure)…(再現率と適合率の調和平均)

     \dfrac{2(1)} {2(1)+(2)+(3)} = \dfrac{2}{\frac{1}{Recall} + \frac{1}{Precision}}

  • 特異度(Specificity)…インフルエンザ以外の罹患者に、陰性と診断した割合

    \dfrac{(4)}{(3)+(4)}

  • 正確性(Accuracy)…全診断結果の中で、インフルエンザ罹患者に陽性、インフルエンザ以外の罹患者に陰性と診断した割合

    \dfrac{(1)+(4)}{(1)+(2)+(3)+(4)}

「間違い」を評価する指標

  • 偽陽性率…インフルエンザ以外の羅漢者に、陽性と診断した割合

     \dfrac{(3)}{(3)+(4)}

  • 偽陰性率…インフルエンザ罹患者に対して、陰性と診断した割合

     \dfrac{(2)}{(1)+(2)}

適合率と再現率の関係

適合率と再現率のトレードオフ関係の対策として、情報検索システムの精度評価に使われるF値が、評価指標として用いられることも一般的です。

陽性診断を多く出すと分子増加により再現率が上昇しますが、分母増加により適合率の割合が低下します。 また陰性診断を多く出すと分母減少により適合率が上昇しますが、分子減少により再現率の割合が低下します。

そこで適合率と再現率の2つの指標それぞれの割合を考慮したF値が活用できます。F値は以下のような式で、2つの指標の調和平均(逆数の算術平均の逆数)を取ることで算出されます。

 \dfrac{2(1)} {2(1)+(2)+(3)} = \dfrac{1}{\frac{1}{2} (\frac{1}{Recall} + \frac{1}{Precision})} = \dfrac{2}{\frac{1}{Recall} + \frac{1}{Precision}}

別の具体例として「同一距離を平均時速5kmと10kmで2回走った時の平均時速は時速6.7kmほどである」というような以下の計算からも、よくある算術平均(=相加平均)との差と有用性についても確認できると思います。

 \dfrac{2}{\frac{1}{5}+ \frac{1}{10}} = \dfrac{1}{\frac{1}{2} (\frac{1}{5} + \frac{1}{10})} = \dfrac{20}{3} \fallingdotseq 6.666....(km/h)

最後に

さっくりとですが分類問題における評価指標について備忘録を認めました。クロス集計表といえば「カイ二乗値の独立性の検定」ですが、まだ全快でないので本記事では割愛します。

おさらいする機会をくれた点では、インフルエンザも悪くないかなって感じです。 今年のインフルエンザ、発熱は低いものの抜群の感染力なので、皆様お身体をお大事になさいませ。

参考元

検査の評価指標(再現率、適合率、特異度、正確度、F値) - 具体例で学ぶ数学