Spark 빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼 Spark 데이터 처리 흐름 데이터프레임(DF)은 작은 파티션들로 구성 데이터프레임은 한 번 만들어지면 수정 불가 (Immutable) 입력 데이터프레임을 원하는 결과 도출까지 다른 데이터 프레임으로 계속 변환 sort, group by, filter, map, join .... 셔플링 : 파티션 간에 데이터 이동이 필요한 경우 발생 셔플링이 발생하는 경우 명시적 파티션을 새롭게 하는 경우 (Ex_파티션 수 줄이기) 시스템에 의해 이뤄지는 셔플링 (Ex_그룹핑에서의 aggregation, sorting) 셔플링이 발생할 때 네트워크를 타고 데이터가 이동 파티션의 개수는 spark.sql.shuffle.partitions가 결정 (기본값은 200이..