[이론][머신러닝] 기계학습을 위한 거리

데이터 분석/빅데이터 프로젝트 2022. 4. 18. 23:21

참조 :

기계학습에서 거리 측정은 단일 데이터들 사이의 차이를 요약하는 객관적인 지표이다. 그것을 잘 보여주는 예시는 k-최근접 이웃 알고리즘이다.

k-최근접 이웃 알고리즘은 각 데이터와 가장 가까운 k개의 데이터와 그 사이의 거리를 수집하고, 그것을 분류의 척도로 사용하여 군집을 나누는 알고리즘이다. 이외에도 다음과 같은 알고리즘에서 대표적으로 '거리'의 개념을 이용한다.

해밍 거리
- 두 이진 벡터 사이의 거리를 측정
  - 예를 들어, 같은 길이의 두 문자열에서, 같은 위치에서 서로 다른 기호들이 몇 개인지를 세어 거리 측정하는 것이 해당됨
유클리드 거리
- 두 개의 실수 벡터를 대상으로 두 점 사이의 거리를 측정(\(x^2 + y^2\) 사용)
- 열에 스케일이 다른 값이 있는 경우 표준화를 실행하여 스케일이 큰 값에 거리 측정값이 지배되지 않도록 한다.
맨해튼 거리
- 두 개의 실제 값 벡터를 대상으로 두 점 사이의 거리를 측정, 출발지에서 도착지로 이동하는 차의 최단거리와 같이 고정적인 특성을 가진 벡터를 다룰 때 이용한다.( |절대값| 사용)
체비쇼프 거리
- 두 벡터 사이의 거리가 좌표 차원에 따른 차이 중 가장 큰 값인 벡터 공간에 정의된 메트릭이다. (첨언 요망)
민코프스키 거리
- 두 개의 실수 벡터를 대상으로 n차원 식을 이용하여 두 점 사이의 거리를 측정, 유클리드, 맨해튼, 체비쇼프 거리 측정을 일반화시킨 것이다.
  - when(n=1)->맨해튼 거리
  - when(n=2)->유클리드 거리
  - when(n=∞)->체비쇼프 거리

[Knime]프로젝트_2 EDA (0)	2022.04.29
[Knime] 프로젝트_1 데이터 개요 (0)	2022.04.28
[이론]Study on Decision Tree (0)	2022.04.14
[이론] Study on Logistic Regression (0)	2022.04.07
[이론] Study on Support Vecter Machine(SVM) _ 1 (0)	2022.04.06

공부방 공부방