BTC_기범 2022. 3. 30. 23:50

비지도 학습

목표값을 전달하지 않고 다른 데이터를 기반으로 목표값은 예측하는 모델을 학습
비지도 학습은 군집화, 차원축소, 시각화 있다.

군집화

주어진 데이터들을 비슷한 것끼리 나누어 그룹을 만드는 것, 비지도학습 방법이다.

예시:

k-mean scatter plot

종류

   1. Linkage Basd(계측적 군집화)
      ex) Hierarchical Clustering
   2. Density Based(밀도적 군집화)
      ex) DBSCAN(Density-Based Spatial Clustering Of Applications With Noise)
   3. By Partitioning
      ex) k-means

+No clustering method works universally well

- 언제든지 잘 작동하는 군집화 방법은 없다. 데이터의 분포 방식에 따라 군집화하기에 적합한 방법은 달라진다.

성능지표(평가지표)

  1. Clustering Quality(CQ)
     CQ = (군집 중심 간의 거리)^2 / (군집 내에 있는 원소간의 거리)^2
     
  2. 실루엣 계수(Slihouette-Coefficient for object_X)
  
     * d(i,C) = 데이터 포인트 i가 속하지 않은 클러스터C의 데이터 포인트들 사이 거리 평균
     * b(i) = d(i,C)의 최솟값
     * a(i) = 자신이 속한 클러스터 내의 거리 평균
  
     S(i) = (b(i) - a(i)) / max{a(i),b(i)} , -1<= S(i) <= 1

+기대값 최대화(E-M: Expectation Maximization)

 군집 중심을 임의로 배정하고 적합도 함수가 최대가 되도록 중간값을 이동하는 것을 지속적으로 반복하는 것
 군집화의 기본 과정이다.