-
Clustering(군집화)데이터 분석/빅데이터 프로젝트 2022. 3. 30. 23:50
비지도 학습
목표값을 전달하지 않고 다른 데이터를 기반으로 목표값은 예측하는 모델을 학습 비지도 학습은 군집화, 차원축소, 시각화 있다.
군집화
주어진 데이터들을 비슷한 것끼리 나누어 그룹을 만드는 것, 비지도학습 방법이다.
예시:
k-mean scatter plot 종류
1. Linkage Basd(계측적 군집화) ex) Hierarchical Clustering 2. Density Based(밀도적 군집화) ex) DBSCAN(Density-Based Spatial Clustering Of Applications With Noise) 3. By Partitioning ex) k-means
+No clustering method works universally well
- 언제든지 잘 작동하는 군집화 방법은 없다. 데이터의 분포 방식에 따라 군집화하기에 적합한 방법은 달라진다.
성능지표(평가지표)
1. Clustering Quality(CQ) CQ = (군집 중심 간의 거리)^2 / (군집 내에 있는 원소간의 거리)^2 2. 실루엣 계수(Slihouette-Coefficient for object_X) * d(i,C) = 데이터 포인트 i가 속하지 않은 클러스터C의 데이터 포인트들 사이 거리 평균 * b(i) = d(i,C)의 최솟값 * a(i) = 자신이 속한 클러스터 내의 거리 평균 S(i) = (b(i) - a(i)) / max{a(i),b(i)} , -1<= S(i) <= 1
+기대값 최대화(E-M: Expectation Maximization)
군집 중심을 임의로 배정하고 적합도 함수가 최대가 되도록 중간값을 이동하는 것을 지속적으로 반복하는 것 군집화의 기본 과정이다.
'데이터 분석 > 빅데이터 프로젝트' 카테고리의 다른 글
[이론][머신러닝] 기계학습을 위한 거리 (0) 2022.04.18 [이론]Study on Decision Tree (0) 2022.04.14 [이론] Study on Logistic Regression (0) 2022.04.07 [이론] Study on Support Vecter Machine(SVM) _ 1 (0) 2022.04.06 [Python][캐글]Reducing Commercial Aviation Fatalities Data EDA 1 (0) 2022.04.03