-
[이론][머신러닝] 기계학습을 위한 거리데이터 분석/빅데이터 프로젝트 2022. 4. 18. 23:21
출처 : https://machinelearningmastery.com/distance-measures-for-machine-learning/
참조 :
거리 측정의 역할
기계학습에서 거리 측정은 단일 데이터들 사이의 차이를 요약하는 객관적인 지표이다. 그것을 잘 보여주는 예시는 k-최근접 이웃 알고리즘이다.
k-최근접 이웃 알고리즘은 각 데이터와 가장 가까운 k개의 데이터와 그 사이의 거리를 수집하고, 그것을 분류의 척도로 사용하여 군집을 나누는 알고리즘이다. 이외에도 다음과 같은 알고리즘에서 대표적으로 '거리'의 개념을 이용한다.
- Learning Vector Quantization (LVQ) # 입력 벡터를 가장 유사한 참조 벡터로 군집화하는 인공신경망
- Self-Organizing Map (SOM) # 자기 조직화 지도, 대뇌피질의 시각피질을 모델화한 인공신경망의 일종
- K-Means Clustering # k-평균 알고리즘, 입력한 데이터를 k개의 클러스터로 묶는 알고리즘
거리 측정 방법 종류
- 해밍 거리
- 두 이진 벡터 사이의 거리를 측정
- 예를 들어, 같은 길이의 두 문자열에서, 같은 위치에서 서로 다른 기호들이 몇 개인지를 세어 거리 측정하는 것이 해당됨
- 두 이진 벡터 사이의 거리를 측정
- 유클리드 거리
- 두 개의 실수 벡터를 대상으로 두 점 사이의 거리를 측정(\(x^2 + y^2\) 사용)
- 열에 스케일이 다른 값이 있는 경우 표준화를 실행하여 스케일이 큰 값에 거리 측정값이 지배되지 않도록 한다.
- 맨해튼 거리
- 두 개의 실제 값 벡터를 대상으로 두 점 사이의 거리를 측정, 출발지에서 도착지로 이동하는 차의 최단거리와 같이 고정적인 특성을 가진 벡터를 다룰 때 이용한다.( |절대값| 사용)
- 체비쇼프 거리
- 두 벡터 사이의 거리가 좌표 차원에 따른 차이 중 가장 큰 값인 벡터 공간에 정의된 메트릭이다. (첨언 요망)
- 민코프스키 거리
- 두 개의 실수 벡터를 대상으로 n차원 식을 이용하여 두 점 사이의 거리를 측정, 유클리드, 맨해튼, 체비쇼프 거리 측정을 일반화시킨 것이다.
- when(n=1)->맨해튼 거리
- when(n=2)->유클리드 거리
- when(n=∞)->체비쇼프 거리
- 두 개의 실수 벡터를 대상으로 n차원 식을 이용하여 두 점 사이의 거리를 측정, 유클리드, 맨해튼, 체비쇼프 거리 측정을 일반화시킨 것이다.
'데이터 분석 > 빅데이터 프로젝트' 카테고리의 다른 글
[Knime]프로젝트_2 EDA (0) 2022.04.29 [Knime] 프로젝트_1 데이터 개요 (0) 2022.04.28 [이론]Study on Decision Tree (0) 2022.04.14 [이론] Study on Logistic Regression (0) 2022.04.07 [이론] Study on Support Vecter Machine(SVM) _ 1 (0) 2022.04.06