ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [이론] Study on Support Vecter Machine(SVM) _ 1
    데이터 분석/빅데이터 프로젝트 2022. 4. 6. 21:34

    출처 : https://www.kaggle.com/code/prashant111/svm-classifier-tutorial

     

    1-1  ‘Support Vector Machine(SVM)’이란?

    Support Vector Machine(SVM), 서포트 벡터 머신은 분류 및 회귀 목적으로 사용되는 기계 학습 알고리즘이다. 분류, 회귀 이상 값 감지에 사용합니다. 또한 선형 분류뿐 아니라 커널 트릭을 사용하여 비선형 분류를 또한 수행할 수 있습니다.

     

    2-1 ‘Hyperplane’이란?

    결정 경계를 의미하고 군집과 결정 경계 사이의 거리, 마진을 최대로 하는 결정 경계를 만들어 그것을 기준으로 군집 분류합니다.

     

    2-2 ‘Support Vector’란?

    결정 경계와 가장 가까운 샘플 데이터입니다.

     

    2-3 ‘Margin’이란?

    Margin, 마진은 Support Vector를 지나는 두 선 사이의 수직 거리입니다.

    2-4 SVM의 목표

    주어진 데이터 세트에서 Support Vecter 사이에 최대 Margin을 가지는 결정 경계를 찾는 것입니다. Support Vecter 사이에는 많은 결정 경계가 있고 그중에 최대 Margin을 가지는 결정 경계를 최대 마진 결정 경계또는 최대 마진 분류기라고 합니다.

     

    2-5 SVM의 한계

    샘플 데이터로 분산된 데이터를 사용할 때 결정 경계를 통해 데이터를 분류할 수 없습니다. 이러한 경우는 커널 트릭을 이용해서 데이터를 고차원화 시킨 뒤 결정 경계를 통한 분류를 진행할 수 있습니다.

     

    3-1 ‘Kernel trick’이란?

    Kernel trick’, 커널 트릭은 저 차원의 데이터를 고차원의 데이터로 변환하는 기술입니다. 저차원에서는 선형 분류로 할 수 없는 데이터를 고차원화 하여 선형 분류를 진행할 수 있도록 합니다. Kernel의 종류는 Linear Kernel, Polynomial Kernel, Radial Basis Function Kernel, Sigmoid Kernel이 있다.

     

    3-2 Linear Kernel

     2차원 상의 직선으로 분류합니다.

    3-3 Polynomial Kernel

     2차원 상의 곡선으로 분류합니다.

    3-4 Radial Basis Function Kernel(RBF Kernel, Gaussian kernel)

     RBF Kernel은 아래의 방정식으로 정의됩니다.

    3-5 Sigmoid Kernel

    C value

    데이터 분류 결과의 분리 정도를 결정하는 파라미터입니다. 0~100까지 지정할 수 있고 100의 경우 분류 범위를 벗어나는 것을 허용하지 않고, 0의 경우에는 분류 범위를 벗어나는 데이터를 허용합니다. 이러한 것을 하드 마진 분류, 소프트 마진 분류라고 부르며 보통 파라미터 값은 1로 두고 경우에 따라 값을 올리거나 내려 최적화합니다.

     

    댓글

Designed by Tistory.