데이터 분석
-
[Knime] 프로젝트_1 데이터 개요데이터 분석/빅데이터 프로젝트 2022. 4. 28. 06:52
출처 : https://www.kaggle.com/competitions/reducing-commercial-aviation-fatalities Reducing Commercial Aviation Fatalities(상업용 항공기 사망자 감소)를 위한 데이터 활용을 목표로 진행해보았다. 데이터 설명 : 이 데이터 세트에서 다양한 상황을 겪은 18명의 조종사로부터 실제 생리학적 데이터이다. 훈련 세트는 비행 시뮬레이터 외부의 비행 환경에서 수집된 제어 실험 세트로 구성되고, 테스트 세트(LOFT = Line Oriented Flight Training)는 비행 시뮬레이터의 전체 비행(이륙, 비행 및 착륙)으로 구성된다. 변수 설명: id - 승무원 + 시간 조합에 대한 고유 식별자입니다.(test.csv ..
-
[이론][머신러닝] 기계학습을 위한 거리데이터 분석/빅데이터 프로젝트 2022. 4. 18. 23:21
출처 : https://machinelearningmastery.com/distance-measures-for-machine-learning/ 참조 : 더보기 https://ko.wikipedia.org/wiki/%ED%95%B4%EB%B0%8D_%EA%B1%B0%EB%A6%AC https://untitledtblog.tistory.com/50 https://wiko.wiki/wiki/Chebyshev_metric 거리 측정의 역할 기계학습에서 거리 측정은 단일 데이터들 사이의 차이를 요약하는 객관적인 지표이다. 그것을 잘 보여주는 예시는 k-최근접 이웃 알고리즘이다. k-최근접 이웃 알고리즘은 각 데이터와 가장 가까운 k개의 데이터와 그 사이의 거리를 수집하고, 그것을 분류의 척도로 사용하여 군집을 나..
-
-
-
[이론]Study on Decision Tree데이터 분석/빅데이터 프로젝트 2022. 4. 14. 18:26
출처 : https://www.kaggle.com/code/prashant111/decision-tree-classifier-tutorial 의사결정나무 알고리즘 의사결정나무 알고리즘은 가장 널리 사용되는 기계학습 알고리즘 중 하나입니다. 특정 문제를 해결하기 위해 트리와 같은 구조를 사용합니다. 분류 및 회귀 목적으로 사용할 수 있는 지도 학습 알고리즘 클래스에 속합니다. 의사결정나무 알고리즘은 루트 노드, 분기 및 리프 노드를 포함하는 구조입니다. 각 내부 노드는 특성에 대한 테스트를 나타내고, 가 분기는 테스트 결과를 나타내며, 각 리프 노드는 분류나 회귀된 클래스 레이블을 포함합니다. 트리의 최상위 노드는 루트 노드이고 분류 또는 회귀를 바라는 데이터셋 전체를 포함합니다. / 분류 및 회귀 트리(..
-
[Python] Study on non-linear-regression데이터 분석 2022. 4. 13. 22:39
출처 : https://www.kaggle.com/code/ibrahimbahbah/non-linear-regression-tutorial/notebook 비선형 사용 이유 데이터가 직선을 벗어난 곡선 추세를 보이는 경우 선형 회귀는 비선형 회귀에 비해 정확한 결과를 생성하지 않습니다. 그리하여 사용하는 것이 비선형 회귀입니다. 필수 라이브러리 가져오기 import numpy as np import matplotlib.pyplot as plt %matplotlib inline 선형 회귀(Linear-Regression) 선형 함수는 Y = ax + b와 같이 표현합니다. x = np.arange(-6.0, 6.0, 0.1) # -6 ~ 6 까지 0.1 간격으로 배열 생성 y = 4*(x) + 5 # 데이..
-
[Python] 혼공 머신러닝 + 딥러닝 데이터 표준화의 중요성데이터 분석 2022. 4. 11. 22:33
출처 : 혼자 공부하는 머신러닝 + 딥러닝 데이터 전처리_2 fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0] fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0,..
-
[Python] 혼공 머신러닝 + 딥러닝 샘플링 편향데이터 분석 2022. 4. 11. 22:28
출처 : 혼자 공부하는 머신러닝 + 딥러닝 생선의 무게, 길이 데이터를 이용해 k-최근접 이웃 알고리즘으로 빙어와 도미를 분류합니다. import 더보기 import matplotlib.pyplot as plt import numpy as np 데이터 입력 및 데이터 구조 처리_1 # 데이터 입력 fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 1..