데이터 분석
-
[BigQuery] 사용자의 서비스 사용 속성별로 집계데이터 분석/SQL 2022. 5. 13. 20:22
더보기 출처 : 데이터 분석을 위한 SQL 레시피 11장 사용자 전체의 특징과 경향 찾기 더보기 DROP TABLE IF EXISTS ch4.mst_users; CREATE TABLE ch4.mst_users( user_id string(255) , sex string(255) , birth_date string(255) , register_date string(255) , register_device string(255) , withdraw_date string(255) ); INSERT INTO ch4.mst_users VALUES ('U001', 'M', '1977-06-17', '2016-10-01', 'pc' , NULL ) , ('U002', 'F', '1953-06-12', '2016-10-..
-
[BigQuery] ROLLUP 없이 ROLLUP 구현하기데이터 분석/SQL 2022. 5. 11. 18:49
더보기 출처 : 데이터 분석을 위한 SQL 레시피 BigQuery에는 원래 ROLLUP() 쿼리가 없었지만 최근에 생긴듯하다. 하지만 coalesce() 쿼리와 함께 쓸 때 coalesce() 쿼리가 제대로 기능하지 않아 지정한 문자가 아니라 null값으로 채워진다. 그래서 ROLLUP 기능을 UNION ALL 쿼리로 구현해보려고 한다. 사용할 데이터 DROP TABLE IF EXISTS ch4.action_log_11_3_1; CREATE TABLE ch4.action_log_11_3_1( session string(255) , user_id string(255) , action string(255) , category string(255) , products string(255) , amount in..
-
[R] KoNLP 패키지 설치데이터 분석/텍스트 분석 2022. 5. 8. 14:02
더보기 출처 : https://www.youtube.com/watch?v=Ewy8mEUriJg R 설치 RStudio 설치 KoNLP 설치 install.packages('multilinguer') library(multilinguer) install_jdk() install.packages(c("hash", "tau", "Sejong", "RSQLite", "devtools", "bit", "rex", "lazyeval", "htmlwidgets", "crosstalk", "promises", "later", "sessioninfo", "xopen", "bit64", "blob", "DBI", "memoise", "plogr", "covr", "DT", "rcmdcheck", "rversions"), ..
-
[BigQuery] Table 생성데이터 분석/SQL 2022. 5. 7. 17:54
더보기 출처 : 데이터 분석을 위한 SQL 레시피 bigquery table 생성에 대해 살펴보겠다. 미리 말하자면 주의 사항은 data set이라는 구조이다. Table 생성 DROP TABLE IF EXISTS mst_users; # table 존재 여부 확인 및 삭제 CREATE TABLE mst_users( # table 생성 user_id string(255) # BigQuery는 varchar라는 데이터형은 없고 string 데이터형 사용 , register_date string(255) , register_device integer ); INSERT INTO mst_users # table에 데이터 삽입 VALUES # table에 넣을 데이터 입력 ('U001', '2016-08-26', ..
-
[BigQuery] CROSS JOIN을 이용한 Table 열 압축, 정리데이터 분석/SQL 2022. 5. 5. 02:15
더보기 출처 : 데이터 분석을 위한 SQL 레시피 참고 : https://cloud.google.com/bigquery/docs/reference/standard-sql/query-syntax?hl=ko#cross\_join CROSS JOIN cross join은 두 개의 table의 각 행들을 연결하는 쿼리이다. M개의 행을 가진 table과 N개의 행을 가진 table을 cross join 할 경우 M * N개의 행을 가진 table이 생성된다. 'quarterly_sale' table 생성 drop table if exists ch3.quarterly_sales; create table ch3.quarterly_sales( year integer, q1 integer, q2 integer, q3 ..
-
[Knime]프로젝트_4 로지스틱 회귀 모델 생성데이터 분석/빅데이터 프로젝트 2022. 5. 3. 23:25
더보기 3편 : https://ford.tistory.com/25 로지스틱 회귀 지난번 의사결정나무를 이용하여 모델을 학습시켜보았고, 이번에는 로지스틱 회귀 모델을 학습시켜보았다. 다중공선성 제거 로지스틱 회귀 분석의 조건 중 하나인 독립 변수은 모두 독립적인 데이터여야 한다는 점을 충족시키기 위해 다중공선성을 제거해야 한다. Knime 로지스틱 회귀 모델 학습 노드는 Regularization 옵션 조작을 통해서 정규화를 적용하여 다중공선성을 제거할 수 있고, 다른 방법으로는 VIF 노드를 이용하여 제거하는 방법이 있다. 나의 경우 VIF 노드를 이용해 다중공선성을 제거하였고, 이 과정에서 제거된 변수는 eeg_p3, eeg_p4, r이었다. 로지스틱 회귀 모델 학습 및 평가 위의 노드를 활용하여 모델..
-
[Knime]프로젝트_3 의사결정나무 모델 생성데이터 분석/빅데이터 프로젝트 2022. 5. 2. 23:51
더보기 2편 : https://ford.tistory.com/24 의사결정나무 각 변수들이 모델 생성에 끼치는 영향을 대략적으로 살피기 위해 의사결정나무 진행 crew 변수가 제한적인 환경, 예를 들어 고정된 항공기 조종사 구성원에게서 예측을 하기 위해서는 긍정적인 예측 요소가 될 수 있다고 생각했다. 그래서 crew 변수를 포함한 모델과 포함하지 않은 모델 두 개 모두 진행해보았다. 결과적으로 모델의 성능 차이는 크지 않았다. 뇌파가 주된 영향력을 끼치리라는 나의 예상과는 다르게 조종사의 상태 분류에 주된 영향력을 미치는 변수들은 gsr, ecg r, time 변수였다. eeg 변수들의 영향력에 대해 좀 더 알아보고자 eeg 변수만을 남기고 의사결정나무를 진행해보았다. eeg변수만이 사용된 의사결정나무..
-
[Knime]프로젝트_2 EDA데이터 분석/빅데이터 프로젝트 2022. 4. 29. 06:12
더보기 1편 : https://ford.tistory.com/23 EDA Duplicate Row Filter node를 이용하여 중복 행 확인 중복행 없음 Data Explorer node를 통해서 데이터 자료형 확인 자료 차원: 28개, 자료 행 수: 4867421개 축소한 행의 수: 486743개 데이터의 자료형은 Experiment, event 열은 string이고 seat 열은 integer 나머지 열은 모두 double이다. Box plot을 이용하여 이상치 확인 데이터의 분포의 경우 eeg(뇌파 데이터)의 경우 중간에 해당되는 범위에 많은 수의 행이 포함되어 있다. Box plot을 이용해서 뇌파 데이터를 살펴본 결과 중간 범위에 다른 범위에 해당하는 데이터보다 많은 데이터가 집중되어있어서 ..