-
[Knime]프로젝트_2 EDA데이터 분석/빅데이터 프로젝트 2022. 4. 29. 06:12
EDA
EDA 노드 구성 Duplicate Row Filter node를 이용하여 중복 행 확인
중복행 없음
Data Explorer node를 통해서 데이터 자료형 확인
자료 차원: 28개, 자료 행 수: 4867421개
축소한 행의 수: 486743개
데이터의 자료형은 Experiment, event 열은 string이고 seat 열은 integer 나머지 열은 모두 double이다.
Box plot을 이용하여 이상치 확인
데이터의 분포의 경우 eeg(뇌파 데이터)의 경우 중간에 해당되는 범위에 많은 수의 행이 포함되어 있다. Box plot을 이용해서 뇌파 데이터를 살펴본 결과 중간 범위에 다른 범위에 해당하는 데이터보다 많은 데이터가 집중되어있어서 중간 범위에 벗어난 데이터들이 이상치로 분류되었다. 그래서 분산 범위가 넓다고 생각하고 이상치로 처리하지는 않고 다뤘다.
Missing value node를 영하여 결측치 유무 확인
결측치 없음
Pivot node를 이용하여 목푯값의 분류 상태를 확인
Experiment에 따라서 어떤 event를 보이는지 확인하기 위해서 pivoting node를 이용하여 테이블을 만들고 groupby bar chart를 이용하여 시각화했다.. 결과적으로 CA, DA, SS에서 평상시와 같은 상태로 분류된 데이터들이 많았고, B는 SS, C는 CA, D는 DA의 상황에 발생되었고 A를 제외하고는 다른 상황에서 다른 감정으로 분류되어있는 데이터는 없었다.
Linear Correlation node를 이용하여 각 열 사이의 연관성을 확인
'데이터 분석 > 빅데이터 프로젝트' 카테고리의 다른 글
[Knime]프로젝트_4 로지스틱 회귀 모델 생성 (0) 2022.05.03 [Knime]프로젝트_3 의사결정나무 모델 생성 (0) 2022.05.02 [Knime] 프로젝트_1 데이터 개요 (0) 2022.04.28 [이론][머신러닝] 기계학습을 위한 거리 (0) 2022.04.18 [이론]Study on Decision Tree (0) 2022.04.14