데이터 분석/빅데이터 프로젝트
-
[Knime]프로젝트_4 로지스틱 회귀 모델 생성데이터 분석/빅데이터 프로젝트 2022. 5. 3. 23:25
더보기 3편 : https://ford.tistory.com/25 로지스틱 회귀 지난번 의사결정나무를 이용하여 모델을 학습시켜보았고, 이번에는 로지스틱 회귀 모델을 학습시켜보았다. 다중공선성 제거 로지스틱 회귀 분석의 조건 중 하나인 독립 변수은 모두 독립적인 데이터여야 한다는 점을 충족시키기 위해 다중공선성을 제거해야 한다. Knime 로지스틱 회귀 모델 학습 노드는 Regularization 옵션 조작을 통해서 정규화를 적용하여 다중공선성을 제거할 수 있고, 다른 방법으로는 VIF 노드를 이용하여 제거하는 방법이 있다. 나의 경우 VIF 노드를 이용해 다중공선성을 제거하였고, 이 과정에서 제거된 변수는 eeg_p3, eeg_p4, r이었다. 로지스틱 회귀 모델 학습 및 평가 위의 노드를 활용하여 모델..
-
[Knime]프로젝트_3 의사결정나무 모델 생성데이터 분석/빅데이터 프로젝트 2022. 5. 2. 23:51
더보기 2편 : https://ford.tistory.com/24 의사결정나무 각 변수들이 모델 생성에 끼치는 영향을 대략적으로 살피기 위해 의사결정나무 진행 crew 변수가 제한적인 환경, 예를 들어 고정된 항공기 조종사 구성원에게서 예측을 하기 위해서는 긍정적인 예측 요소가 될 수 있다고 생각했다. 그래서 crew 변수를 포함한 모델과 포함하지 않은 모델 두 개 모두 진행해보았다. 결과적으로 모델의 성능 차이는 크지 않았다. 뇌파가 주된 영향력을 끼치리라는 나의 예상과는 다르게 조종사의 상태 분류에 주된 영향력을 미치는 변수들은 gsr, ecg r, time 변수였다. eeg 변수들의 영향력에 대해 좀 더 알아보고자 eeg 변수만을 남기고 의사결정나무를 진행해보았다. eeg변수만이 사용된 의사결정나무..
-
[Knime]프로젝트_2 EDA데이터 분석/빅데이터 프로젝트 2022. 4. 29. 06:12
더보기 1편 : https://ford.tistory.com/23 EDA Duplicate Row Filter node를 이용하여 중복 행 확인 중복행 없음 Data Explorer node를 통해서 데이터 자료형 확인 자료 차원: 28개, 자료 행 수: 4867421개 축소한 행의 수: 486743개 데이터의 자료형은 Experiment, event 열은 string이고 seat 열은 integer 나머지 열은 모두 double이다. Box plot을 이용하여 이상치 확인 데이터의 분포의 경우 eeg(뇌파 데이터)의 경우 중간에 해당되는 범위에 많은 수의 행이 포함되어 있다. Box plot을 이용해서 뇌파 데이터를 살펴본 결과 중간 범위에 다른 범위에 해당하는 데이터보다 많은 데이터가 집중되어있어서 ..
-
[Knime] 프로젝트_1 데이터 개요데이터 분석/빅데이터 프로젝트 2022. 4. 28. 06:52
출처 : https://www.kaggle.com/competitions/reducing-commercial-aviation-fatalities Reducing Commercial Aviation Fatalities(상업용 항공기 사망자 감소)를 위한 데이터 활용을 목표로 진행해보았다. 데이터 설명 : 이 데이터 세트에서 다양한 상황을 겪은 18명의 조종사로부터 실제 생리학적 데이터이다. 훈련 세트는 비행 시뮬레이터 외부의 비행 환경에서 수집된 제어 실험 세트로 구성되고, 테스트 세트(LOFT = Line Oriented Flight Training)는 비행 시뮬레이터의 전체 비행(이륙, 비행 및 착륙)으로 구성된다. 변수 설명: id - 승무원 + 시간 조합에 대한 고유 식별자입니다.(test.csv ..
-
[이론][머신러닝] 기계학습을 위한 거리데이터 분석/빅데이터 프로젝트 2022. 4. 18. 23:21
출처 : https://machinelearningmastery.com/distance-measures-for-machine-learning/ 참조 : 더보기 https://ko.wikipedia.org/wiki/%ED%95%B4%EB%B0%8D_%EA%B1%B0%EB%A6%AC https://untitledtblog.tistory.com/50 https://wiko.wiki/wiki/Chebyshev_metric 거리 측정의 역할 기계학습에서 거리 측정은 단일 데이터들 사이의 차이를 요약하는 객관적인 지표이다. 그것을 잘 보여주는 예시는 k-최근접 이웃 알고리즘이다. k-최근접 이웃 알고리즘은 각 데이터와 가장 가까운 k개의 데이터와 그 사이의 거리를 수집하고, 그것을 분류의 척도로 사용하여 군집을 나..
-
[이론]Study on Decision Tree데이터 분석/빅데이터 프로젝트 2022. 4. 14. 18:26
출처 : https://www.kaggle.com/code/prashant111/decision-tree-classifier-tutorial 의사결정나무 알고리즘 의사결정나무 알고리즘은 가장 널리 사용되는 기계학습 알고리즘 중 하나입니다. 특정 문제를 해결하기 위해 트리와 같은 구조를 사용합니다. 분류 및 회귀 목적으로 사용할 수 있는 지도 학습 알고리즘 클래스에 속합니다. 의사결정나무 알고리즘은 루트 노드, 분기 및 리프 노드를 포함하는 구조입니다. 각 내부 노드는 특성에 대한 테스트를 나타내고, 가 분기는 테스트 결과를 나타내며, 각 리프 노드는 분류나 회귀된 클래스 레이블을 포함합니다. 트리의 최상위 노드는 루트 노드이고 분류 또는 회귀를 바라는 데이터셋 전체를 포함합니다. / 분류 및 회귀 트리(..
-
[이론] Study on Logistic Regression데이터 분석/빅데이터 프로젝트 2022. 4. 7. 19:47
출처 : https://www.kaggle.com/code/prashant111/logistic-regression-classifier-tutorial https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95%EC%84%B1 1. 로지스틱 회귀분석(Logistic Regression | Logit Regression) 이산 클래스 집합에 대한 예측을 할 때 사용하는 지도 학습 분류 알고리즘이다. 결과도 이산 값으로 출력된다. 2. 로지스틱 회귀분석 과정 ### 2-1. 선형 방정식 구현 예측에 사용되는 독립 변수가 하나일 경우 다음과 같이 일차 방정식으로 모델이 학습됩니다. z = β0 + β1x1 하나가 아닌 여러 독립 변수를 가지는 경우는 n차 방정식으로 모델이 학습됩니..
-
[이론] Study on Support Vecter Machine(SVM) _ 1데이터 분석/빅데이터 프로젝트 2022. 4. 6. 21:34
출처 : https://www.kaggle.com/code/prashant111/svm-classifier-tutorial 1-1 ‘Support Vector Machine(SVM)’이란? Support Vector Machine(SVM), 서포트 벡터 머신은 분류 및 회귀 목적으로 사용되는 기계 학습 알고리즘이다. 분류, 회귀 이상 값 감지에 사용합니다. 또한 선형 분류뿐 아니라 커널 트릭을 사용하여 비선형 분류를 또한 수행할 수 있습니다. 2-1 ‘Hyperplane’이란? 결정 경계를 의미하고 군집과 결정 경계 사이의 거리, 마진을 최대로 하는 결정 경계를 만들어 그것을 기준으로 군집 분류합니다. 2-2 ‘Support Vector’란? 결정 경계와 가장 가까운 샘플 데이터입니다. 2-3 ‘Marg..