ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 파이프라인 설계를 위한 고려사항
    데이터 엔지니어링 2023. 1. 18. 14:48

    데이터 소비자 식별 및 요구 사항 이해

    데이터를 소비자와 데이터 소비방식을 파악한다.

     

    데이터 소스 식별 및 데이터 수집

    데이터를 수집 원천과 수집하는데 사용하는 도구를 파악한다.

     

    데이터 변환 및 최적화 식별

    파일 형식 최적화

    읽기에 적합한 텍스트 파일을 컴퓨터 기반 분석에 적합한 Apache Parquet 형식으로 변경

     

    데이터 표준화

    동일한 항목의 데이터가  다른 형식으로 저장된 것을 동일한 형식으로 통일

     

    데이터 품질 확인 

     

    데이터 파티셔닝

    리소스를 절약하고 속도를 높이는 방법, 자주 사용되는 필드별로 물리적 스토리지 계층의 데이터를 그룹화하여 데이터를 분할

     

    데이터 비정규화

    정규화를 통해 테이블에 저장되어 있는 데이터를 하나의 테이블로 통합

     

    데이터 카탈로그

    데이터 세트를 분류하고 저장되는 데이터 세트의 메타데이터를 데이터 카탈로그에 저장

     

    화이트보드 데이터 변환

    생성 계획인 데이터 파이프라인의 전체적인 프로세스에 대한 아키텍처와 생성시 유의하면 좋은 아키텍처와 연관된 참고정보를 기록하여 파이프라인에 대한 높은 수준의 개요 생성

     

    데이터 마트에 로드

    Data Lake에서 데이터를 바로 불러와 사용할 수 있지만 대량의 데이터를 한번에 불러올 필요가 있을 경우 직접적인 사용은 좋은 선택이 아닐 수 있습니다.

    이러한 경우 데이터 마트를 활용할 수 있습니다. 데이터 마트로 사용하는 툴은 관계형 데이터베이스와 데이터 웨어하우스 시스템이 있습니다.

     

     

     

    댓글

Designed by Tistory.