전체 글
-
[PostgreSQL] timestamp 다루기데이터 분석/SQL 2022. 4. 10. 23:46
출처 : https://ko.wikipedia.org/wiki/%ED%83%80%EC%9E%84%EC%8A%A4%ED%83%AC%ED%94%84 데이터 분석을 위한 SQL 레시피 타임스텀프란 특정한 시각을 나타내거나 기록하는 문자열입니다. 데이터베이스를 구축하고 서비스를 진행하는 과정에서 데이터가 생성되는 시간을 데이터와 함께 저장하여 활용하는 경우가 많습니다. 그러한 경우 타임스텀프의 요소, 연, 월, 일, 시간, 분 중 필요한 부분을 추출하여 가공해야하는 상황이 있습니다. 수집해야하는 문자열에 따른 수행 방법에 대해 적어보려고 한다. 현재 시간 수집 # 타임존이 적용된 타임스탬프 수집 SELECT CURRENT_DATE AS dt , CURRENT_TIMESTAMP AS stamp; # 타임존을 적용..
-
[PostgreSQL] CASE문데이터 분석/SQL 2022. 4. 9. 14:10
출처 : 데이터 분석을 위한 SQL 레시피 CASE CASE 문은 규칙을 정하고, 그것을 따라 새 열을 생성할 수 있습니다. 아래의 예시는 각 행의 company열의 값이 1, 2, 3일 경우 company_name 열에 '삼성', '애플', '테슬라' 저장되고 그 외의 것은 '기타'로 저장되도록 작성한 CASE문입니다. Select User_id , CASE WHEN company = 1 THEN ‘삼성’ WHEN company = 2 THEN ‘애플’ WHEN company = 3 THEN ‘테슬라’ ELSE ‘기타’ END AS company_name FROM club_member;
-
[R] sub(), gsub(), 정규 표현식데이터 분석/텍스트 분석 2022. 4. 8. 23:10
출처 : do it! 쉽게 배우는 R 텍스트마이닝 sub(), gsub() sub(), gsub() 함수는 지정한 패턴과 같은 부분을 제시한 문자로 대체할 때 사용된다. sub() 함수는 'pattern' 파라미터 입력값과 같은 부분 중 문장 가장 앞에 위치하고 있는 부분만 'replacement' 파라미터에 입력한 문자열로 대체된다. gsub() 함수는 'pattern' 파라미터 입력값과 같은 부분 전체가 'replacement' 파라미터에 입력한 문자열로 대체된다. 예제) xt
-
[이론] Study on Logistic Regression데이터 분석/빅데이터 프로젝트 2022. 4. 7. 19:47
출처 : https://www.kaggle.com/code/prashant111/logistic-regression-classifier-tutorial https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95%EC%84%B1 1. 로지스틱 회귀분석(Logistic Regression | Logit Regression) 이산 클래스 집합에 대한 예측을 할 때 사용하는 지도 학습 분류 알고리즘이다. 결과도 이산 값으로 출력된다. 2. 로지스틱 회귀분석 과정 ### 2-1. 선형 방정식 구현 예측에 사용되는 독립 변수가 하나일 경우 다음과 같이 일차 방정식으로 모델이 학습됩니다. z = β0 + β1x1 하나가 아닌 여러 독립 변수를 가지는 경우는 n차 방정식으로 모델이 학습됩니..
-
[이론] Study on Support Vecter Machine(SVM) _ 1데이터 분석/빅데이터 프로젝트 2022. 4. 6. 21:34
출처 : https://www.kaggle.com/code/prashant111/svm-classifier-tutorial 1-1 ‘Support Vector Machine(SVM)’이란? Support Vector Machine(SVM), 서포트 벡터 머신은 분류 및 회귀 목적으로 사용되는 기계 학습 알고리즘이다. 분류, 회귀 이상 값 감지에 사용합니다. 또한 선형 분류뿐 아니라 커널 트릭을 사용하여 비선형 분류를 또한 수행할 수 있습니다. 2-1 ‘Hyperplane’이란? 결정 경계를 의미하고 군집과 결정 경계 사이의 거리, 마진을 최대로 하는 결정 경계를 만들어 그것을 기준으로 군집 분류합니다. 2-2 ‘Support Vector’란? 결정 경계와 가장 가까운 샘플 데이터입니다. 2-3 ‘Marg..
-
[python][ubuntu]'데이터 분석을 위한 Python, 3E' _ 1데이터 분석 2022. 4. 6. 00:30
출처 : https://wesmckinney.com/book/ https://webnautes.tistory.com/1499 책에서 말하는 필수 라이브러리로 아래 목록이 있다. 모두 한 번씩은 실행해본 경험이 있는 라이브러리들이다. 특히 numpy, pandas, matplotlib은 모든 수업에 도입에서 다루는 부분이고 ipython은 코랩을 자주 이용하는 덕분에 친숙하다. scikit-learn 경우는 model_selection의 train_test_split을 inport 할 때가 많아 기억에 남는다. numpy # 수치 데이터를 과학 응용 프로그램에 사용할 수 있도록 데이터 구조, 수학 연산, 데이터 리더 등 pandas # 데이터 사용에 도움을 주는 데이터 구조와 기능 matplotlib # ..
-
[PostgreSQL][ubuntu 20.04.3]설치 및 데이터 베이스 생성데이터 분석/SQL 2022. 4. 4. 18:02
출처 : https://www.youtube.com/watch?v=qw--VYLpxG4 ubuntu 환경에서 설치 # 시스템 소프트웨어 패키지를 업데이트 $ sudo apt update # 'postgresql' 설치 $ sudo apt install postgresql # 'postgresql' 버전 확인 $psql --version database 생성 # 사용자를 'prostgres'로 전환 -> postgresql을 실행하기위해 권한 필요 $sudo -i -u prostgres # 데이터베이스 연결 $psql # 데이터베이스 생성 =# create database test; # CREATE DATABASE test; 둘 모두 가능 # 데이터베이스 확인 =# \ㅣ List of databases N..
-
이력서[2022-04-04]이력서 2022. 4. 4. 12:33
About Me 안녕하세요! 클라우드 활용에 관심을 가지고 공부하고 있습니다. 가장 관심 있는 데이터 도메인은 공공데이터와 생체 데이터입니다. Contact & Channel Email: dogibum6@gmail.com GitHub: https://github.com/GBDO blog: https://ford.tistory.com/ Skill CSP AWS AZURE GCP Naver Cloud Analysis tool python R Knime Database MySQL BI tool Qlick Tableau Work Experience 미소정보기술 실습 2021.11~2021.12 Qlick을 이용한 대시보드 제작 옴니커뮤니케이션 실습 2021.6~2021.7 웹페이지 제작 Education 동아대..