2023/12/12 3

Airflow_(2)

트랜잭션 Atomic하게 실행되어야 하는 SQL들을 묶어서 하나의 작업처럼 처리하는 방법 BEGIN과 END (COMMIT) 사이에 해당하는 SQL들을 사용 ROLLBACK은 BEGIN 이전의 상태로 돌아가라는 SQL 명령어 트랜잭션 구현 두 가지 종류의 트랜잭션이 존재 레코드 변경/삭제/추가를 바로 반영하는지의 여부는 autocommit이라는 파라미터로 조절가능 autocommit = True 기본적으로 모든 SQL statement가 바로 물리 테이블에 커밋 이를 바꾸고 싶다면 BEGIN;END (COMMIT)을 사용 (or ROLLBACK) autocommit = False 기본적으로 모든 SQL statement가 커밋되지 않음. 즉, 모두 스테이징 상태로 존재 커넥션 객체의 .commit()과 ..

Airflow_(1)

데이터 파이프라인 (ETL) ETL : Extract, Transform and Load Data Pipeline, ETL, Data Workflow, DAG Airflow에서는 DAG (Directed Acyclic Graph)라고 부름 데이터를 소스로부터 목적지로 복사하는 작업 보통 코딩 (파이썬, 스칼라) 혹은 SQL을 통해 이뤄짐 대부분의 경우 목적지는 데이터 웨어하우스 ETL vs ELT ETL : 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스 데이터 엔지니어들이 수행 ELT : 데이터 웨어하우스 내부 데이터를 조작하여 새로운 데이터를 만드는 프로세스 데이터 분석가들이 많이 수행 데이터 레이크 위에서 작업을 진행하기도 함 ELT에는 전용 기술들이 있으며 dbt가 가장 유명 (Ana..

728x90