• 개요
    • K-means 클러스터링은 N개의 데이터가 K개의 클러스터로 나누는 클러스터링 기법
    • 각 클러스터는 자신의 평균 값을 가지고 있음
  • 단계
    1. 그룹 평균 초기화

      • 그룹 평균 초기화 각 그룹의 평균 $m^{k}$ 를 초기화, 초기화 방법도 여러가지가 있으나 가장 기본적인 방법은 랜덤값을 평균으로 취하는 것
    2. 그룹 할당

      • 모든 데이터 $x^{n}$ 에 대해 가장 가까운 평균에 속하게 함.
      • 즉, 각 데이터 포인트에 대해 각 그룹의 평균까지의 거리를 계산하고, 가장 가까운 그룹에 속하도록 함.

      $$ \hat{k^{(n)}} = argmin_{k}[d(m^{(k)}, x^{(n)})] $$

    3. 평균 업데이트

      • 각 그룹에 대한 새로운 평균값 업데이트

        $r_{k}^{(n)} = \left\{\begin{matrix} & & 0\ if\ k^{(n)}=k\\ & & 1\ if\ k^{(n)}=k \end{matrix}\right.$

        • 위 식의 $r_{k}$ 는 지시함수 (indicator function)으로서 해당 클러스터 인 경우 1, 아니면 0이다.
        • $[m^{(k)} = \frac{\sum_{n}r_{k}^{(n)}x^{(n)}}{\sum_{n}r_{k}^{(n)}}]$
    4. 반복

      • 2, 3단계를 반복하게 됨.
      • 2단계에서 변하는 것이 없을 때 까지 반복
  • 한계점
    • K-means 클러스터링에서는 가중치를 주거나 하지 않기 때문에 클러스터 간 데이터 밀도의 차이가 있을 경우 클러스터링이 잘 되지 않는 경향이 있음.
    • 이 방법은 클러스터의 모양을 고려하지 않음.