전체 글 357

2차 프로젝트 (후기)

주제 농산물 가격 데이터를 이용한 물가 변동 조회 개요 및 주제 선정 이유 최근 물가가 급격하게 상승하며 농산물의 물가 또한 크게 요동치고 있음 물가 상승으로 인해 장보기가 꺼려지고 이에 따라 직접 요리하기보다 외식을 선택하는 비율이 늘고 있음 농산물 가격 데이터를 활용해 농산물의 물가 변동을 조회할 수 있는 대시보드를 제작하고, 이는 농산물의 물가가 요동치는 중에 현재까지의 농산물들의 물가를 한 눈에 보고 물가 변동의 추이 및 전반적인 농산물의 물가를 파악하고 효율적인 장보기를 지원하고자 함 사용 기술 AWS IAM AWS S3 Snowflake Apache Superset 역할 Snowflake 설정 및 데이터 적재 프로젝트 기술 발전 가능성 매일 새로운 농산물 가격 데이터를 갱신한다면 어제와 오늘,..

데이터 웨어하우스, SQL, 데이터분석 (4)

JOIN 두 개 혹은 그 이상의 테이블들을 공통 필드를 가지고 머지하는데 사용 Star 스키마 형태로 구성된 테이블들로 분산되어 있던 정보를 통합하는데 사용 다양한 종류의 JOIN JOIN 문법 - JOIN 앞의 빈 칸에 INNER, FULL, LEFT, RIGHT, CROSS의 다양한 형태의 JOIN이 들어감 SELECT A.*, B.* FROM raw_data.table1 A ____ JOIN raw_data.table2 B ON a.key1 = B.key1 and A.key2 = B.key2 JOIN 시 고려해야할 점 중복 레코드가 없고 Primary Key의 uniqueness가 보장됨을 확인 - 가장 중요한 작업! JOIN 하는 테이블들간의 관계를 명확하게 정의 one to one one to ..

2차 프로젝트(3)

snowflake 데이터 적재 SQL문을 사용하여 S3와 연결 후 데이터를 원하는 곳에 적재 credentials 입력 시 AWS의 콘솔의 key와 secret 키를 바로 입력하는 것은 절대 금지! - 해당 계정의 key가 공유되면 다른 사용자가 자신의 AWS계정을 마음대로 사용이 가능하여 요금을 폭탄 맞을수도.. -- dev Database 밑의 raw_data 스키마의 test_data Table로 데이터 적재 COPY INTO dev.raw_data.test_data -- 가지고 오고자 하는 S3 버킷 주소/파일 이름 입력 from 's3://ABCDEFGH/FILE NAME.ABC' -- 생성한 IAM의 접근 키와 SECRET 키 입력 credentials=(AWS_KEY_ID='ABCDEFGHI..

2차 프로젝트(2)

Redshift에서 snowflake로 변경 snowflake 회원가입 추가적인 설문이 있는데 대답을 해도 되고, skip을 해도 무방 가입이 완료되면 아래와 같은 E-mail이 오는데, snowflakecomputing.com 으로 끝나는 접속 주소가 메일로 전송됨 해당 메일은 꼭 저장해 놓을것! snowflake 계정 공유 (유저 추가) snowflake는 하나의 계정으로 여러 사람이 공유하여 작업이 가능 Admin -> User & Role 탭으로 들어가 오른쪽 상단의 +User 를 클릭 해당 화면이 나오면 공유하고자하는 사람의 이름과 Email을 입력 비밀번호는 접속 시에 필요한 것이고 추후 변경이 가능하니, 초기 비밀번호는 간단하게! 각각의 사용자의 Role 설정은 사용자 이름의 오른쪽에 점 3..

2차 프로젝트(1)

Redshift 설정 AWS 메인페이지에 들어가 Redshift 검색 나의 경우 Serverless를 선택하여 진행하였음 - 기본으로 300크레딧이 주어져 300 크레딧까지 무료로 사용하능 Redshift Serverless를 선택하면 아래와 같은 화면이 보여짐 아무것도 설정하지 않고 생성 생성 버튼을 클릭하면 해당 화면이 나오는데 100% 완료될 때 까지 대기 (시간이 조금 걸림, 몇 분 내외) 관리자 접근 설정 변경해주기 해당 Redshift의 '네임 스페이스'에 들어가 'Edit admin credentials' 클릭 해당 화면이 나오면 설정하고자 하는 관리자 이름 설정 하단의 Generate a password를 Manually add the admin password를 선택하여 비밀번호 설정 후..

데이터 웨어하우스와 고급 SQL, BI 대시보드 (5)

시각화 툴 대시보드 혹은 BI (Business Intelligence)툴이라고 부름 KPI (Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해줌 결정권자들로 하여금 흔히 이야기하는 데이터 기반 의사결정을 가능하게함 데이터 기반 결정 (Data-Driven Decision) 데이터 참고 결정 (Data-Informed-Decision) 현업 종사자들이 데티어 분석을 쉽게 할 수 있도록 함 종류 - Excel, Google Spreadsheet : 가장 많이 사용 - Python : 데이터 특성 분석 (EDA : Exploratory Data Analysis)에 더 적합 - Looker (구글) - Tableau (세일즈포스) - Powe..

728x90