전체 글
-
[BigQuery] Table 생성데이터 분석/SQL 2022. 5. 7. 17:54
더보기 출처 : 데이터 분석을 위한 SQL 레시피 bigquery table 생성에 대해 살펴보겠다. 미리 말하자면 주의 사항은 data set이라는 구조이다. Table 생성 DROP TABLE IF EXISTS mst_users; # table 존재 여부 확인 및 삭제 CREATE TABLE mst_users( # table 생성 user_id string(255) # BigQuery는 varchar라는 데이터형은 없고 string 데이터형 사용 , register_date string(255) , register_device integer ); INSERT INTO mst_users # table에 데이터 삽입 VALUES # table에 넣을 데이터 입력 ('U001', '2016-08-26', ..
-
[Github] GitHub action, Pytest 기반 자동 테스트 세팅기타 2022. 5. 7. 00:33
더보기 출처 : https://github.com/serithemage/python_algorithm_exercise GitHub - serithemage/python_algorithm_exercise Contribute to serithemage/python_algorithm_exercise development by creating an account on GitHub. github.com https://ko.wikipedia.org/wiki/%EC%BD%94%EB%93%9C_%EC%BB%A4%EB%B2%84%EB%A6%AC%EC%A7%80 뭐 때문에? 코드 커버리지 때문에 코드 커버리지(Code Coverage)는 소프트웨어 테스트가 충분한가를 나타내는 지표 중 하나다. 코드가 얼마나 요구와 기대에..
-
[BigQuery] CROSS JOIN을 이용한 Table 열 압축, 정리데이터 분석/SQL 2022. 5. 5. 02:15
더보기 출처 : 데이터 분석을 위한 SQL 레시피 참고 : https://cloud.google.com/bigquery/docs/reference/standard-sql/query-syntax?hl=ko#cross\_join CROSS JOIN cross join은 두 개의 table의 각 행들을 연결하는 쿼리이다. M개의 행을 가진 table과 N개의 행을 가진 table을 cross join 할 경우 M * N개의 행을 가진 table이 생성된다. 'quarterly_sale' table 생성 drop table if exists ch3.quarterly_sales; create table ch3.quarterly_sales( year integer, q1 integer, q2 integer, q3 ..
-
[Knime]프로젝트_4 로지스틱 회귀 모델 생성데이터 분석/빅데이터 프로젝트 2022. 5. 3. 23:25
더보기 3편 : https://ford.tistory.com/25 로지스틱 회귀 지난번 의사결정나무를 이용하여 모델을 학습시켜보았고, 이번에는 로지스틱 회귀 모델을 학습시켜보았다. 다중공선성 제거 로지스틱 회귀 분석의 조건 중 하나인 독립 변수은 모두 독립적인 데이터여야 한다는 점을 충족시키기 위해 다중공선성을 제거해야 한다. Knime 로지스틱 회귀 모델 학습 노드는 Regularization 옵션 조작을 통해서 정규화를 적용하여 다중공선성을 제거할 수 있고, 다른 방법으로는 VIF 노드를 이용하여 제거하는 방법이 있다. 나의 경우 VIF 노드를 이용해 다중공선성을 제거하였고, 이 과정에서 제거된 변수는 eeg_p3, eeg_p4, r이었다. 로지스틱 회귀 모델 학습 및 평가 위의 노드를 활용하여 모델..
-
[Knime]프로젝트_3 의사결정나무 모델 생성데이터 분석/빅데이터 프로젝트 2022. 5. 2. 23:51
더보기 2편 : https://ford.tistory.com/24 의사결정나무 각 변수들이 모델 생성에 끼치는 영향을 대략적으로 살피기 위해 의사결정나무 진행 crew 변수가 제한적인 환경, 예를 들어 고정된 항공기 조종사 구성원에게서 예측을 하기 위해서는 긍정적인 예측 요소가 될 수 있다고 생각했다. 그래서 crew 변수를 포함한 모델과 포함하지 않은 모델 두 개 모두 진행해보았다. 결과적으로 모델의 성능 차이는 크지 않았다. 뇌파가 주된 영향력을 끼치리라는 나의 예상과는 다르게 조종사의 상태 분류에 주된 영향력을 미치는 변수들은 gsr, ecg r, time 변수였다. eeg 변수들의 영향력에 대해 좀 더 알아보고자 eeg 변수만을 남기고 의사결정나무를 진행해보았다. eeg변수만이 사용된 의사결정나무..
-
[Knime]프로젝트_2 EDA데이터 분석/빅데이터 프로젝트 2022. 4. 29. 06:12
더보기 1편 : https://ford.tistory.com/23 EDA Duplicate Row Filter node를 이용하여 중복 행 확인 중복행 없음 Data Explorer node를 통해서 데이터 자료형 확인 자료 차원: 28개, 자료 행 수: 4867421개 축소한 행의 수: 486743개 데이터의 자료형은 Experiment, event 열은 string이고 seat 열은 integer 나머지 열은 모두 double이다. Box plot을 이용하여 이상치 확인 데이터의 분포의 경우 eeg(뇌파 데이터)의 경우 중간에 해당되는 범위에 많은 수의 행이 포함되어 있다. Box plot을 이용해서 뇌파 데이터를 살펴본 결과 중간 범위에 다른 범위에 해당하는 데이터보다 많은 데이터가 집중되어있어서 ..
-
[Knime] 프로젝트_1 데이터 개요데이터 분석/빅데이터 프로젝트 2022. 4. 28. 06:52
출처 : https://www.kaggle.com/competitions/reducing-commercial-aviation-fatalities Reducing Commercial Aviation Fatalities(상업용 항공기 사망자 감소)를 위한 데이터 활용을 목표로 진행해보았다. 데이터 설명 : 이 데이터 세트에서 다양한 상황을 겪은 18명의 조종사로부터 실제 생리학적 데이터이다. 훈련 세트는 비행 시뮬레이터 외부의 비행 환경에서 수집된 제어 실험 세트로 구성되고, 테스트 세트(LOFT = Line Oriented Flight Training)는 비행 시뮬레이터의 전체 비행(이륙, 비행 및 착륙)으로 구성된다. 변수 설명: id - 승무원 + 시간 조합에 대한 고유 식별자입니다.(test.csv ..
-
[이론][머신러닝] 기계학습을 위한 거리데이터 분석/빅데이터 프로젝트 2022. 4. 18. 23:21
출처 : https://machinelearningmastery.com/distance-measures-for-machine-learning/ 참조 : 더보기 https://ko.wikipedia.org/wiki/%ED%95%B4%EB%B0%8D_%EA%B1%B0%EB%A6%AC https://untitledtblog.tistory.com/50 https://wiko.wiki/wiki/Chebyshev_metric 거리 측정의 역할 기계학습에서 거리 측정은 단일 데이터들 사이의 차이를 요약하는 객관적인 지표이다. 그것을 잘 보여주는 예시는 k-최근접 이웃 알고리즘이다. k-최근접 이웃 알고리즘은 각 데이터와 가장 가까운 k개의 데이터와 그 사이의 거리를 수집하고, 그것을 분류의 척도로 사용하여 군집을 나..