데이터 엔지니어링
-
파이프라인 설계를 위한 고려사항데이터 엔지니어링 2023. 1. 18. 14:48
데이터 소비자 식별 및 요구 사항 이해 데이터를 소비자와 데이터 소비방식을 파악한다. 데이터 소스 식별 및 데이터 수집 데이터를 수집 원천과 수집하는데 사용하는 도구를 파악한다. 데이터 변환 및 최적화 식별 파일 형식 최적화 읽기에 적합한 텍스트 파일을 컴퓨터 기반 분석에 적합한 Apache Parquet 형식으로 변경 데이터 표준화 동일한 항목의 데이터가 다른 형식으로 저장된 것을 동일한 형식으로 통일 데이터 품질 확인 데이터 파티셔닝 리소스를 절약하고 속도를 높이는 방법, 자주 사용되는 필드별로 물리적 스토리지 계층의 데이터를 그룹화하여 데이터를 분할 데이터 비정규화 정규화를 통해 테이블에 저장되어 있는 데이터를 하나의 테이블로 통합 데이터 카탈로그 데이터 세트를 분류하고 저장되는 데이터 세트의 메타..
-
데이터 보안 및 거버넌스 in AWS데이터 엔지니어링 2023. 1. 18. 12:43
데이터 암호화 및 보안 모니터링을 위한 AWS 서비스 KMS ( AWS 키 관리 서비스 ) AWS 서비스에서 데이터를 암호화하고 해독하기 위한 보안 키 생성 및 관리 프로세스를 간소화하는 서비스 Amazon Macie 패턴 일치와 함께 기계 학습을 사용하여 중요한 데이터, 이름, 주소, 신용 카드 번호 등을 검색하고 사용자에게 알림을 전송하여 보호하는 관리형 서비스 Amazon GuardDuty 기계학습을 사용하여 CloudTrail S3 데이터 이벤트, CloudTrail 관리 이벤트, VPC 트래픽 로그, DNS 로그를 확인하여 AWS 계정을 모니터링하고 악의적인 활동 및 무단 동작에 대한 사전 경고를 제공하는 지능형 위협 탐지 서비스 CloudTrail S3 데이터 이벤트 S3 객체에서 수행된 모든..
-
AWS Lambda 트리거 생성 - S3에 새 파일이 저장될 때데이터 엔지니어링 2023. 1. 17. 00:27
AWS Data Wrangler AWS 환경에서 ETL 작업을 간편화하기 위해 사용하는 Python Library CSV 파일을 Parquet 파일로 변경, Pandas 라이브러리를 기초로 해서 AWS의 Datalake 관련 서비스들을 연결 등의 기능을 사용 가능하다. Lambda 사용을 위해 필요한 계정의 IAM 권한 S3 bucket 읽기 권한 S3 bucket 쓰기 권한 Amazon CloudWatch 로그 쓰기 권한 모든 Glue API 접근 권한
-
데이터 엔지니어링 도구 in AWS데이터 엔지니어링 2023. 1. 16. 14:54
데이터 수집 DMS ( Amazon Database Migration Service) 기존의 데이터베이스를 다른 데이터베이스로 마이그레이션 하거나 S3 기반 데이터 레이크로 동기화할 때 사용하는 서비스 CDC (Change Data Capture) 데이터베이스가 변경에 대한 로그 파일(database transaction log files)을 기반으로 S3에 변경점이 적용되는 것을 확인하고 기록하는 과정 Amazon Kinesis Series 스트리밍 데이터 수집 및 처리 과정을 간소화하는 관리형 서비스 Kinesis Data Firehose 스트리밍 데이터를 수신하고 일정 기간 동안 해당 데이터를 버퍼링 한 다음 지원하는 대상에 파일을 생성하는 서비스 버퍼링 한 데이터를 전달할 수 있는 대상이 제한되어..