ssung_데이터 엔지니어링/7주차_데이터 웨어하우스 관리와 고급 SQL, BI 대시보드

데이터 웨어하우스와 고급 SQL, BI 대시보드 (2)

ssungcohol 2023. 11. 28. 23:24

Redshift

  • AWS에서 지원하는 데이터 웨어하우스 서비스
  • 2PB의 데이터까지 처리 가능
    • 최소 160GB로 시작해 점진적으로 용량 증감 가능 
  • Still OLAP
    • 응답속도가 빠르지 않기 때문에 프로덕션 데이터베이스로 사용불가
  • 컬림 기반 스토리지
    • 레코드 별로 저장이 아닌 컬럼 별로 저장
    • 컬럼 별 압축이 가능하며 컬럼을 추가하거나 삭제하는 것이 아주 빠름
  • 벌크 업데이트 지원
    • 레코드가 들어있는 파일을 S3로 복사 후 COPY 커맨드로 Redshift로 일괄 복사
  • 고정 용량/비용 SQL 엔진
    • 최근 가변 비용 옵션도 제공 (Redshift Serverless)
  • 데이터 공유 기능 (Datashare)
    • 다른 AWS 계정과 특정 데이터 공유 가능
  • 다른 데이터 웨어하우스처럼 primary key uniqueness를 보장하지 않음
  • SQL 기반 관계형 데이터 베이스
    • Postgresql 8.x와 SQL이 호환
    • Postgresql 8.x를 지원하는 툴이나 라이브러리로 액세스 가능

Redshift 스케일링 방식

  • Snowflake나 BigQuery 방식과는 다름
    • 특별히 용량이 정해져있지 않고 쿼리를 처리하기 위해 사용한 리소스에 해당하는 비용 지불
       - Snowflake와 BigQuery가 훨씬 더 스케일하는 데이터베이스 기술이라 볼 수 있음
       - 장단점 존재 -> 비용의 예측이 불가능하다는 단점이 존재
  • Redshift에도 가변비용 옵션이 존재 -> Serverless

Redshift 저장 방식

  • 두 대 이상의 노드로 구성되면, 그 시점부터 테이블 최적화가 중요
  • Distkey, Diststyle, Sortkey 세 개의 키워드를 알아야 함
    • Diststyle : 레코드 분배가 어떻게 이뤄지는지를 결정
       - all, even, key 세 종류가 있고, even이 기본 설정
    • Distkey : 레코드가 어떤 컬럼을 기준으로 배포되는지 나타냄 (Diststyle이 key인 경우)
    • Sortkey : 레코드가 한 노드 내에서 어떤 컬럼을 기준으로 정렬되는지 나타냄
       - 이는 보통 타임스탬프가 필드가 됨

  • Diststyle이 key인 경우 컬럼 선택이 잘못되면?
    • 레코드 분포에 Skew가 발생 -> 분산처리의 효율성이 사라짐
    • BigQuery나 Snowflake에서는 속성을 개발자가 지정할 필요가 없음 (시스템이 스스로 설정)
  • 저장 방식 예
     - my_table의 레코드들은 column1의 값을 기준으로 분배되고, 같은 노드(슬라이스)안에서는 column3의 값을 기준으로 정렬
CREATE TABLE my_table(
    column1 INT,
    column2 VARCHAR(50),
    column3 TIMESTAMP,
    column4 DECIMAL(18,2)
) DISTSTYLE KEY DISKEY(column1)SORTKEY(column3);

Redshift 벌크 업데이트 방식 - COPY SQL


Redshift 데이터 타입

  • SMALLINT (INT2)
  • INTEGER (INT, INT4)
  • BIGINT (INT8)
  • DECIMAL (NUMERIC)
  • REAL (FLOAT4)
  • DOUBLE PRECISION (FLOAT8)
  • BOOLEAN (BOOL)
  • CHAR (CHARACTER)
  • VARCHAR (CHARACTER VARYING)
  • TEXT (VARCHAR(256))
  • DATE
  • TIMESTAMP
  • GEOMETRY
  • GEOGRAPHY
  • HLLSKETCH
  • SUPER

Redshift 초기 설정

  • Schema : 다른 기타 관계형 데이터베이스와 동일한 구조
    • CREATE SCHEMA raw_date; - ETL 결과가 들어감
    • CREATE SCHEMA analytics; - ELT 결과가 들어감
    • CREATE SCHEMA adhoc; - 테스트용 테이블이 들어감
    • CREATE SCHEMA pii; - 개인정보가 들어감
  • 사용자(User)생성
    • CREATE USER ssung PASSWORD '...';
    • select * from pg_user; - 모든 사용자를 리스트업
  • 그룹 (Group)생성/설정
    • 한 사용자는 다수의 그룹에 속할 수 있음
    • 그룹의 문제는 계승 불가
      • CREATE GROUP analytics_users; - analytics_users 그룹 생성
      • CREATE GROUP analytics_authors; - analytics_authors 그룹 생성
      • CREATE GROUP pii_users; - pii_users 그룹 생성
      • ALTER GROUP analytics_authors ADD USER ssung; - analytics_authors그룹에 ssung 사용자 추가
      • ALTER GROUP analytics_users ADD USER ssung;  - a analytics_users 그룹에 ssung 사용자 추가
      • ALTER GROUP pii_users ADD USER ssung;  - pii_users 그룹에 ssung 사용자 추가
  • 역할(Role) 생성/설정
    • 역할은 그룹과 달리 계승 가능
    • 역할은 사용자에게 부여될 수도 있고 다른 역할게 부여될 수도 있음
    • 한 사용자는 다수의 역할에 소속 가능
      • CREATE ROLE staff;
      • CREATE ROLE manager;
      • CREATE ROLE external;
      • GRANT ROLE staff TO ssung;
      • GRANT ROLE manager TO ssung;
728x90