2024/01/18 3

하둡&Spark_(2)

Spark 빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼 Spark 데이터 처리 흐름 데이터프레임(DF)은 작은 파티션들로 구성 데이터프레임은 한 번 만들어지면 수정 불가 (Immutable) 입력 데이터프레임을 원하는 결과 도출까지 다른 데이터 프레임으로 계속 변환 sort, group by, filter, map, join .... 셔플링 : 파티션 간에 데이터 이동이 필요한 경우 발생 셔플링이 발생하는 경우 명시적 파티션을 새롭게 하는 경우 (Ex_파티션 수 줄이기) 시스템에 의해 이뤄지는 셔플링 (Ex_그룹핑에서의 aggregation, sorting) 셔플링이 발생할 때 네트워크를 타고 데이터가 이동 파티션의 개수는 spark.sql.shuffle.partitions가 결정 (기본값은 200이..

하둡&Spark_(1)

빅데이터 서버 한 대로 처리할 수 없는 데이터 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 4V (Volume, Velocity, Variety, Varecity) Volume - 데이터의 크기 Velocity - 데이터의 처리속도 Variety - 구조화/비구조화 데이터 Varecity - 데이터의 품질 빅데이터의 예 웹 수십 조개 이상의 웹 페이지 존재 -> 온갖 종류의 지식의 바다 웹 검색엔진 개발은 진정한 대용량 처리 사용자 검색어와 클릭 정보 자체도 대용량 요즘은 웹 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용 빅데이터의 처리 특징 큰 데이터를 손실없이 보관할 방법 필요 : 스토리지 처리 시간이 오래 걸림 : 병렬처리 빅데이터는 비구조화 된 데이터일 가능성이 높음 : SQL 만으로..

728x90