데이터 분석
-
[R] Do it R 텍스트마이닝_1데이터 분석/텍스트 분석 2022. 4. 11. 16:38
출처 : Do it R 텍스트마이닝 https://6u2ni.tistory.com/46 텍스트 데이터의 전처리에 대해서 공부하였다. 개요 1. 원하는 문자를 제외하고 불필요한 문자를 제거 2. 처리한 문자열 벡터를 데이터 분석에 용이하도록 tibble 구조로 변경 3. 전처리한 데이터의 빈도를 보기 좋게 시각화 + 폰트 변경 + 파이프를 이용한 함수 연속 실행 데이터는 'Do it R 텍스트마이닝' 저자 김영우님의 github에 있는 speech_park.txt를 이용하였다. 출처 : github.com/yongwoos/Doit_textmining 사용하는 패키지 더보기 library(stringr) library(dplyr) library(tidytext) library(ggplot2) 글자 제거, 대..
-
[PostgreSQL] timestamp 다루기데이터 분석/SQL 2022. 4. 10. 23:46
출처 : https://ko.wikipedia.org/wiki/%ED%83%80%EC%9E%84%EC%8A%A4%ED%83%AC%ED%94%84 데이터 분석을 위한 SQL 레시피 타임스텀프란 특정한 시각을 나타내거나 기록하는 문자열입니다. 데이터베이스를 구축하고 서비스를 진행하는 과정에서 데이터가 생성되는 시간을 데이터와 함께 저장하여 활용하는 경우가 많습니다. 그러한 경우 타임스텀프의 요소, 연, 월, 일, 시간, 분 중 필요한 부분을 추출하여 가공해야하는 상황이 있습니다. 수집해야하는 문자열에 따른 수행 방법에 대해 적어보려고 한다. 현재 시간 수집 # 타임존이 적용된 타임스탬프 수집 SELECT CURRENT_DATE AS dt , CURRENT_TIMESTAMP AS stamp; # 타임존을 적용..
-
[PostgreSQL] CASE문데이터 분석/SQL 2022. 4. 9. 14:10
출처 : 데이터 분석을 위한 SQL 레시피 CASE CASE 문은 규칙을 정하고, 그것을 따라 새 열을 생성할 수 있습니다. 아래의 예시는 각 행의 company열의 값이 1, 2, 3일 경우 company_name 열에 '삼성', '애플', '테슬라' 저장되고 그 외의 것은 '기타'로 저장되도록 작성한 CASE문입니다. Select User_id , CASE WHEN company = 1 THEN ‘삼성’ WHEN company = 2 THEN ‘애플’ WHEN company = 3 THEN ‘테슬라’ ELSE ‘기타’ END AS company_name FROM club_member;
-
[R] sub(), gsub(), 정규 표현식데이터 분석/텍스트 분석 2022. 4. 8. 23:10
출처 : do it! 쉽게 배우는 R 텍스트마이닝 sub(), gsub() sub(), gsub() 함수는 지정한 패턴과 같은 부분을 제시한 문자로 대체할 때 사용된다. sub() 함수는 'pattern' 파라미터 입력값과 같은 부분 중 문장 가장 앞에 위치하고 있는 부분만 'replacement' 파라미터에 입력한 문자열로 대체된다. gsub() 함수는 'pattern' 파라미터 입력값과 같은 부분 전체가 'replacement' 파라미터에 입력한 문자열로 대체된다. 예제) xt
-
[이론] Study on Logistic Regression데이터 분석/빅데이터 프로젝트 2022. 4. 7. 19:47
출처 : https://www.kaggle.com/code/prashant111/logistic-regression-classifier-tutorial https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95%EC%84%B1 1. 로지스틱 회귀분석(Logistic Regression | Logit Regression) 이산 클래스 집합에 대한 예측을 할 때 사용하는 지도 학습 분류 알고리즘이다. 결과도 이산 값으로 출력된다. 2. 로지스틱 회귀분석 과정 ### 2-1. 선형 방정식 구현 예측에 사용되는 독립 변수가 하나일 경우 다음과 같이 일차 방정식으로 모델이 학습됩니다. z = β0 + β1x1 하나가 아닌 여러 독립 변수를 가지는 경우는 n차 방정식으로 모델이 학습됩니..
-
[이론] Study on Support Vecter Machine(SVM) _ 1데이터 분석/빅데이터 프로젝트 2022. 4. 6. 21:34
출처 : https://www.kaggle.com/code/prashant111/svm-classifier-tutorial 1-1 ‘Support Vector Machine(SVM)’이란? Support Vector Machine(SVM), 서포트 벡터 머신은 분류 및 회귀 목적으로 사용되는 기계 학습 알고리즘이다. 분류, 회귀 이상 값 감지에 사용합니다. 또한 선형 분류뿐 아니라 커널 트릭을 사용하여 비선형 분류를 또한 수행할 수 있습니다. 2-1 ‘Hyperplane’이란? 결정 경계를 의미하고 군집과 결정 경계 사이의 거리, 마진을 최대로 하는 결정 경계를 만들어 그것을 기준으로 군집 분류합니다. 2-2 ‘Support Vector’란? 결정 경계와 가장 가까운 샘플 데이터입니다. 2-3 ‘Marg..
-
[python][ubuntu]'데이터 분석을 위한 Python, 3E' _ 1데이터 분석 2022. 4. 6. 00:30
출처 : https://wesmckinney.com/book/ https://webnautes.tistory.com/1499 책에서 말하는 필수 라이브러리로 아래 목록이 있다. 모두 한 번씩은 실행해본 경험이 있는 라이브러리들이다. 특히 numpy, pandas, matplotlib은 모든 수업에 도입에서 다루는 부분이고 ipython은 코랩을 자주 이용하는 덕분에 친숙하다. scikit-learn 경우는 model_selection의 train_test_split을 inport 할 때가 많아 기억에 남는다. numpy # 수치 데이터를 과학 응용 프로그램에 사용할 수 있도록 데이터 구조, 수학 연산, 데이터 리더 등 pandas # 데이터 사용에 도움을 주는 데이터 구조와 기능 matplotlib # ..
-
[PostgreSQL][ubuntu 20.04.3]설치 및 데이터 베이스 생성데이터 분석/SQL 2022. 4. 4. 18:02
출처 : https://www.youtube.com/watch?v=qw--VYLpxG4 ubuntu 환경에서 설치 # 시스템 소프트웨어 패키지를 업데이트 $ sudo apt update # 'postgresql' 설치 $ sudo apt install postgresql # 'postgresql' 버전 확인 $psql --version database 생성 # 사용자를 'prostgres'로 전환 -> postgresql을 실행하기위해 권한 필요 $sudo -i -u prostgres # 데이터베이스 연결 $psql # 데이터베이스 생성 =# create database test; # CREATE DATABASE test; 둘 모두 가능 # 데이터베이스 확인 =# \ㅣ List of databases N..