데이터 분석/빅데이터 프로젝트
Clustering(군집화)
BTC_기범
2022. 3. 30. 23:50
비지도 학습
목표값을 전달하지 않고 다른 데이터를 기반으로 목표값은 예측하는 모델을 학습
비지도 학습은 군집화, 차원축소, 시각화 있다.
군집화
주어진 데이터들을 비슷한 것끼리 나누어 그룹을 만드는 것, 비지도학습 방법이다.
예시:
종류
1. Linkage Basd(계측적 군집화)
ex) Hierarchical Clustering
2. Density Based(밀도적 군집화)
ex) DBSCAN(Density-Based Spatial Clustering Of Applications With Noise)
3. By Partitioning
ex) k-means
+No clustering method works universally well
- 언제든지 잘 작동하는 군집화 방법은 없다. 데이터의 분포 방식에 따라 군집화하기에 적합한 방법은 달라진다.
성능지표(평가지표)
1. Clustering Quality(CQ)
CQ = (군집 중심 간의 거리)^2 / (군집 내에 있는 원소간의 거리)^2
2. 실루엣 계수(Slihouette-Coefficient for object_X)
* d(i,C) = 데이터 포인트 i가 속하지 않은 클러스터C의 데이터 포인트들 사이 거리 평균
* b(i) = d(i,C)의 최솟값
* a(i) = 자신이 속한 클러스터 내의 거리 평균
S(i) = (b(i) - a(i)) / max{a(i),b(i)} , -1<= S(i) <= 1
+기대값 최대화(E-M: Expectation Maximization)
군집 중심을 임의로 배정하고 적합도 함수가 최대가 되도록 중간값을 이동하는 것을 지속적으로 반복하는 것
군집화의 기본 과정이다.