ssung_데이터 엔지니어링 64

2차 프로젝트(3)

snowflake 데이터 적재 SQL문을 사용하여 S3와 연결 후 데이터를 원하는 곳에 적재 credentials 입력 시 AWS의 콘솔의 key와 secret 키를 바로 입력하는 것은 절대 금지! - 해당 계정의 key가 공유되면 다른 사용자가 자신의 AWS계정을 마음대로 사용이 가능하여 요금을 폭탄 맞을수도.. -- dev Database 밑의 raw_data 스키마의 test_data Table로 데이터 적재 COPY INTO dev.raw_data.test_data -- 가지고 오고자 하는 S3 버킷 주소/파일 이름 입력 from 's3://ABCDEFGH/FILE NAME.ABC' -- 생성한 IAM의 접근 키와 SECRET 키 입력 credentials=(AWS_KEY_ID='ABCDEFGHI..

2차 프로젝트(2)

Redshift에서 snowflake로 변경 snowflake 회원가입 추가적인 설문이 있는데 대답을 해도 되고, skip을 해도 무방 가입이 완료되면 아래와 같은 E-mail이 오는데, snowflakecomputing.com 으로 끝나는 접속 주소가 메일로 전송됨 해당 메일은 꼭 저장해 놓을것! snowflake 계정 공유 (유저 추가) snowflake는 하나의 계정으로 여러 사람이 공유하여 작업이 가능 Admin -> User & Role 탭으로 들어가 오른쪽 상단의 +User 를 클릭 해당 화면이 나오면 공유하고자하는 사람의 이름과 Email을 입력 비밀번호는 접속 시에 필요한 것이고 추후 변경이 가능하니, 초기 비밀번호는 간단하게! 각각의 사용자의 Role 설정은 사용자 이름의 오른쪽에 점 3..

2차 프로젝트(1)

Redshift 설정 AWS 메인페이지에 들어가 Redshift 검색 나의 경우 Serverless를 선택하여 진행하였음 - 기본으로 300크레딧이 주어져 300 크레딧까지 무료로 사용하능 Redshift Serverless를 선택하면 아래와 같은 화면이 보여짐 아무것도 설정하지 않고 생성 생성 버튼을 클릭하면 해당 화면이 나오는데 100% 완료될 때 까지 대기 (시간이 조금 걸림, 몇 분 내외) 관리자 접근 설정 변경해주기 해당 Redshift의 '네임 스페이스'에 들어가 'Edit admin credentials' 클릭 해당 화면이 나오면 설정하고자 하는 관리자 이름 설정 하단의 Generate a password를 Manually add the admin password를 선택하여 비밀번호 설정 후..

데이터 웨어하우스와 고급 SQL, BI 대시보드 (5)

시각화 툴 대시보드 혹은 BI (Business Intelligence)툴이라고 부름 KPI (Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해줌 결정권자들로 하여금 흔히 이야기하는 데이터 기반 의사결정을 가능하게함 데이터 기반 결정 (Data-Driven Decision) 데이터 참고 결정 (Data-Informed-Decision) 현업 종사자들이 데티어 분석을 쉽게 할 수 있도록 함 종류 - Excel, Google Spreadsheet : 가장 많이 사용 - Python : 데이터 특성 분석 (EDA : Exploratory Data Analysis)에 더 적합 - Looker (구글) - Tableau (세일즈포스) - Powe..

데이터 웨어하우스와 고급 SQL, BI 대시보드 (4)

Snowflake 2014년 클라우드 기반 데이터웨어하우스로 시작 지금은 데이터 클라우드라고 부를 수 있을 정도로 발전 글로벌 클라우드 (AWS, GCP, Azure) 위에서 모두 동작 - 멀티 클라우드 데이터 판매를 통한 매출을 가능하게 해주는 Data sharing/Marketplace 제공 ETL과 다양한 데이터 통합 기능을 제공 Snowflake 특징 스토리지와 컴퓨팅 인프라가 별도로 설정되는 가변 비용 모델 Redshift 고정비용처럼 노드 수를 조정할 필요가 없고 distkey 등의 최적화 불필요 SQL 기반으로 빅데이터 저장, 처리, 분석을 가능하게 해줌 비구조화된 데이터 처리와 머신러닝 기능도 제공 CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷 지원 S3, GC..

데이터 웨어하우스와 고급 SQL, BI 대시보드 (3)

Redshift 권한과 보안 사용자별 테이블 권한 설정 일반적으로 사용자 별 테이블 별 권한 설정은 하지 않음 너무 복잡하고 실수의 가능성이 높음 역할 (Role) 혹은 그룹 (Group) 별로 스키마 별 접근 권한을 주느넋이 일반적 RBAC (Role Based Access Control)가 새로운 트렌드 : 그룹보다 더 편리 여러 역할에 속한 사용자의 경우는 각 역하릐 권한을 모두 갖게 됨 (Inclusive) 개인정보와 관련한 테이블들이라면 별도의 스키마 설정 극히 일부 사람만 속한 역할에 접근 권한을 설정 Column Level Security (컬럼 레벨 보안) 테이블 내의 특정 컬럼(들)을 특정 사용자나 특정 그룹/역할에만 접근 가능하게 하는 것 보통 개인정보 등에 해당하는 컬럼을 권한이 없는..

데이터 웨어하우스와 고급 SQL, BI 대시보드 (2)

Redshift AWS에서 지원하는 데이터 웨어하우스 서비스 2PB의 데이터까지 처리 가능 최소 160GB로 시작해 점진적으로 용량 증감 가능 Still OLAP 응답속도가 빠르지 않기 때문에 프로덕션 데이터베이스로 사용불가 컬림 기반 스토리지 레코드 별로 저장이 아닌 컬럼 별로 저장 컬럼 별 압축이 가능하며 컬럼을 추가하거나 삭제하는 것이 아주 빠름 벌크 업데이트 지원 레코드가 들어있는 파일을 S3로 복사 후 COPY 커맨드로 Redshift로 일괄 복사 고정 용량/비용 SQL 엔진 최근 가변 비용 옵션도 제공 (Redshift Serverless) 데이터 공유 기능 (Datashare) 다른 AWS 계정과 특정 데이터 공유 가능 다른 데이터 웨어하우스처럼 primary key uniqueness를 보..

데이터 웨어하우스와 고급 SQL, BI 대시보드 (1)

데이터 조직이 하는 일 고품질 데이터를 기반으로 의사 결정권자에게 입력 제공 - 결정 과학 (Decision Science)라고도 함 - 데이터를 고려한 결정을 가능하게 해줌 - Ex_) 데이터 기반 지표 정의, 대시보드와 리포트 생성 등을 수행 고품질 데이터를 기반으로 사용자 서비스 경험 개선 혹은 프로세스 최적화 - 머신 러닝과 같은 알고리즘을 통해 사용자의 서비스 경험을 개선 데이터 웨어하우스 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스 - AWS Redshift, 구글 BigQuery, Snowflake, 하둡/Spark 등이 있음 프로덕션용 베이터베이스와 별개의 데이터베이스여야 함 데이터 웨어하우스의 구축이 진정한 데이터 조직이 되는 첫 번째 단계 데이터 웨어하우스 장단점 기본적으로 ..

AWS(5)

Docker 컨테이너 기반의 오픈소스 가상화 플랫폼 다양한 프로그램, 실행환경을 컨테이너로 추상화하고 동일한 인터페이스를 제공하여 프로그램의 배포 및 관리를 단순화 백엔드 프로그램, 데이터베이스 서버, 메시지 큐 등 어떤 프로그램도 컨테이너로 추상화 가능 컨테이너 (Container) 호스트와 다른 컨테이너로 격리된 시스템 자원과 네트워크를 사용하는 프로세스 이미지는 읽기 전용으로 사용하여 변경사항은 컨테이너 계층에 저장 -> 컨테이너에서 무엇을 하든 이미지는 영향을 받지 않음 이미지 (Image) 컨테이너를 생성할 때 필요한 요소를 포함 (파일, 설정 값 등) 컨테이너의 목적에 맞는 바이너리와 의존성이 설치되어 있음 여러 개의 계층으로 된 바이너리 파일로 존재 주요 명령어 Container 생성 및 실..

AWS(4)

AWS CLI AWS 명령줄 인터페이스 (CLI)는 AWS 서비스를 관리하는 통합 도구 도구 하나만 다운로드하여 구성하면 여러 AWS 서비스를 명령줄에서 제어하고 스크립트를 통해 자동화 설치 방법 Windows - 64 or 32 비트 Windows에 맞는 설치 프로그램을 다운로드하여 실행 Mac or Linux - Python 2.6.5 이상 필요 - pip를 사용하여 설치 (pip install awscli) Amazon Linux - AWS CLI는 Amazon Linux AMI에 미리 설치되어 제공 Powershell 또는 터미널에서 aws --version 입력 시 버전 정보가 제대로 나온다면 정상 설치 된 것 CLI 설정하기 aws configure를 통해 설정하기 AWS Access Key ..

728x90