• 머신러닝의 과정
    • 데이터 가공 및 변환 → 모델 학습 및 예측 → 평가
  • 머신러닝 모델
    • Regression (회귀)
      • 실제값과 예측값의 오차 평균값에 기반한 평가
    • Classification ( 분류)
      • 직관적으로 알 수 있는 정확도(Accuracy, 맞은 예측수/전체예측수)로 평가하기도 하나 다른 평가 지표를 사용하는 경우가 더 많음
  • 분류 성능 평가 지표
    • Accuracy (정확도)

      • Accuracy는 직관적으로 이해 가능하고, 실생활에서 많이 사용하는 지표이나 어떤 경우에서는 머신러닝에서 정확도가 지표로 사용하는 경우가 부적절할 때도 있다.
      • Accuracy는 (맞은 예측수 / 전체 예측수) 로 나타낼 수 있다.
      • 데이터의 결괏값이 불균형한 경우들에 머신러닝을 적용하는 경우 정확도는 해당 모델의 성능을 평가하는데 부적절하다.
    • Confusion Matrix (오차행렬)

      • Confusion Matrix는 TN, FP, FN, TP를 통해 모델의 예측이 맞았는지 분류하여 평가한다.

        • 앞글자에 있는 T와 F는 True, False를 의미하며 해당 예측이 맞았는지, 틀렸는지를 표현한다
        • 뒷글자에 있는 N과 P는 Negative와 Positive를 의미하며, 모델이 예측한 값을 표현한다.

        Untitled

      • TP = TrueNegative = 모델이 Negative라고 예측했으며, 해당 예측이 맞음

      • FP = FalsePositive = 모델이 Positive라고 예측했으나, 해당 예측은 틀림

      • FN = FalseNegative = 모델이 Negative라고 예측했으나, 해당 예측은 틀림

      • TN = TrueNegative = 모델이 Negative라고 예측했으며, 해당 예측은 맞음

    • Precision과 Recall

      • Precision (정밀도)
        • $Precision = \frac{TP}{FP+TP}$
        • FP는 Positive로 예측했으나 틀린것이고, TP는 Positive로 예측해서 맞은것 이므로, FP+TP는 Positive 예측의 전체 갯수를 의미한다.
        • 즉 Precision은 전체 Positive 예측 중 실제로 해당 예측이 맞은 비율을 의미한다.
      • Recall (재현율)
        • $Recall = \frac{TP}{FN+TP}$
        • FN은 Negative로 예측했으나 틀린것을 의미하고, TP는 Positive로 예측해서 맞은 것 이므로, FN+TP는 실제로 해당 값들이 Positive 인것을 의미한다.
        • 즉 Recall 은 실제 Positive 인 것 중 모델이 Positive로 예측한 비율을 의미한다.
      • 차이점
        • $Precision = \frac{TP}{FP+TP}$
        • $Recall = \frac{TP}{FN+TP}$
        • 위와 같이 분수로 되어있는 값을 증가시키려 할 때 두가지의 방법이 있다
          1. 분자의 크기를 키운다. → 둘다 분자가 공통되게 TP이므로 모두 TP를 증가시키는데 초점을 둔다.
          2. 분모의 크기를 줄인다.
            • Precision은 FP(잘못된 Positive 예측)을 줄이는데에 초점
            • Recall은 FN (잘못된 Negative 예측)을 줄이는데 초점
      • 어느 것이 더 중요한가?
        • Precision → 스팸메일 여부를 판단하는 모델 등
        • Recall → 암 판단 모델 등
      • Precision-Recall Trade-off
        • Precision와 Recall의 중요성은 사례마다 다르나, Precision 혹은 Recall이 특별히 강조되야 하는 경우 Threshold(임계값)을 조정함으로써 Precision 또는 Recall의 수치를 높일 수 있다.
        • 하지만, Precision과 Recall은 상호 보완적인 관계이므로, 한쪽을 강제로 높이게 되면 다른 한쪽은 떨어지게 되어있다.
        • 위와 같이 서로 연관되어 한쪽을 높이면, 다른 한쪽이 떨어지는 경우를 Tradeoff라고 칭한다.
    • F1 Score

      • F1 Score는 Precision과 Recall을 결합한 지표이다.
      • 이 지표는 Precision과 Recall이 어느쪽으로 치우지지 않을 때 상대적으로 높은 값을 가질 수 있다.

      $$ F1 = 2 \times \frac{precision \times recall}{precision + recall} $$

    • ROC Curve와 AUC Score

      ROC Curve (Receiver Operating Characteristic)