knime
-
[Knime]프로젝트_4 로지스틱 회귀 모델 생성데이터 분석/빅데이터 프로젝트 2022. 5. 3. 23:25
더보기 3편 : https://ford.tistory.com/25 로지스틱 회귀 지난번 의사결정나무를 이용하여 모델을 학습시켜보았고, 이번에는 로지스틱 회귀 모델을 학습시켜보았다. 다중공선성 제거 로지스틱 회귀 분석의 조건 중 하나인 독립 변수은 모두 독립적인 데이터여야 한다는 점을 충족시키기 위해 다중공선성을 제거해야 한다. Knime 로지스틱 회귀 모델 학습 노드는 Regularization 옵션 조작을 통해서 정규화를 적용하여 다중공선성을 제거할 수 있고, 다른 방법으로는 VIF 노드를 이용하여 제거하는 방법이 있다. 나의 경우 VIF 노드를 이용해 다중공선성을 제거하였고, 이 과정에서 제거된 변수는 eeg_p3, eeg_p4, r이었다. 로지스틱 회귀 모델 학습 및 평가 위의 노드를 활용하여 모델..
-
[Knime]프로젝트_3 의사결정나무 모델 생성데이터 분석/빅데이터 프로젝트 2022. 5. 2. 23:51
더보기 2편 : https://ford.tistory.com/24 의사결정나무 각 변수들이 모델 생성에 끼치는 영향을 대략적으로 살피기 위해 의사결정나무 진행 crew 변수가 제한적인 환경, 예를 들어 고정된 항공기 조종사 구성원에게서 예측을 하기 위해서는 긍정적인 예측 요소가 될 수 있다고 생각했다. 그래서 crew 변수를 포함한 모델과 포함하지 않은 모델 두 개 모두 진행해보았다. 결과적으로 모델의 성능 차이는 크지 않았다. 뇌파가 주된 영향력을 끼치리라는 나의 예상과는 다르게 조종사의 상태 분류에 주된 영향력을 미치는 변수들은 gsr, ecg r, time 변수였다. eeg 변수들의 영향력에 대해 좀 더 알아보고자 eeg 변수만을 남기고 의사결정나무를 진행해보았다. eeg변수만이 사용된 의사결정나무..
-
[Knime] 프로젝트_1 데이터 개요데이터 분석/빅데이터 프로젝트 2022. 4. 28. 06:52
출처 : https://www.kaggle.com/competitions/reducing-commercial-aviation-fatalities Reducing Commercial Aviation Fatalities(상업용 항공기 사망자 감소)를 위한 데이터 활용을 목표로 진행해보았다. 데이터 설명 : 이 데이터 세트에서 다양한 상황을 겪은 18명의 조종사로부터 실제 생리학적 데이터이다. 훈련 세트는 비행 시뮬레이터 외부의 비행 환경에서 수집된 제어 실험 세트로 구성되고, 테스트 세트(LOFT = Line Oriented Flight Training)는 비행 시뮬레이터의 전체 비행(이륙, 비행 및 착륙)으로 구성된다. 변수 설명: id - 승무원 + 시간 조합에 대한 고유 식별자입니다.(test.csv ..
-
Clustering(군집화)데이터 분석/빅데이터 프로젝트 2022. 3. 30. 23:50
비지도 학습 목표값을 전달하지 않고 다른 데이터를 기반으로 목표값은 예측하는 모델을 학습 비지도 학습은 군집화, 차원축소, 시각화 있다. 군집화 주어진 데이터들을 비슷한 것끼리 나누어 그룹을 만드는 것, 비지도학습 방법이다. 예시: 종류 1. Linkage Basd(계측적 군집화) ex) Hierarchical Clustering 2. Density Based(밀도적 군집화) ex) DBSCAN(Density-Based Spatial Clustering Of Applications With Noise) 3. By Partitioning ex) k-means +No clustering method works universally well - 언제든지 잘 작동하는 군집화 방법은 없다. 데이터의 분포 방식에 ..