• 개요

    • ROC 커브는 모델의 성능에 대한 평가 지표임.
    • 모든 임계값에서 분류 모델의 성능을 보여주는 그래프
  • Sensitivity (민감도), Specificity(특이도)의 개념

    Untitled

    → ROC커브에서 이야기하는 True, False 는 각각 판단을 올바르게 했다 와 판단을 틀리게 했다로 치환

    • Sensitivity (True Positive Rate, TPR, Recall) : 병에 걸린 사람이 양성 (Positive)판정을 받는 비율

    • Specificity (True Negative Rate , TNR) : 정상인이 음성(Negative) 판정을 받는 비율
    • False Positive Rate(FPR) : 1 - Specificity
    • Accuracy(정확도) : 전체 데이터 중 제대로 분류된 데이터 비율
    • Error Rate(에러율) : 전체 데이터 중 제대로 분류되지 않은 데이터 비율
    • Precision(정밀도) : Positive로 예측했을 때 실제 Positive인 비율
    • 수식
      • $Sensitivity = TPR = \frac{TP}{TP+FN}$
      • $Specification = TNR = \frac{TN}{FP+TN}$
      • $FalsePositiveRate = FPR = \frac{FP}{FP+TN}$
      • $Accuracy = \frac{TP+TN}{TP+FP+TN+FN}$
      • $ErrorRate = \frac{FP+FN}{TP+FP+TN+FN}$
      • $Precision = \frac{TP}{TP+FP}$
  • Precision과 Sensitivity(민감도, Recall)의 차이

    • Precision은 Positive 기준, Recall은 옳은 판정이 기준이 됨.
  • ROC 커브

    • 모형이 좋다 = 모든 환자에게 양성판정, 모든 정상인에게 음성 판정

      Untitled

    • Perfect Classification

      $$ PerfectClassification\Rightarrow TPR=1 \& FPR=0 $$

      Untitled

    • ROC 커브에서 모델의 평가가 좋다는 것은 커브의 및 면적인 AUC(Area Under the Cover)의 넓이가 넓을 수록 성능이 좋다는 것임.