'ssung_데이터 엔지니어링/13주차_하둡과 Spark' 카테고리의 글 목록

ssung_데이터 엔지니어링/13주차_하둡과 Spark 2

Spark 빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼 Spark 데이터 처리 흐름 데이터프레임(DF)은 작은 파티션들로 구성 데이터프레임은 한 번 만들어지면 수정 불가 (Immutable) 입력 데이터프레임을 원하는 결과 도출까지 다른 데이터 프레임으로 계속 변환 sort, group by, filter, map, join .... 셔플링 : 파티션 간에 데이터 이동이 필요한 경우 발생 셔플링이 발생하는 경우 명시적 파티션을 새롭게 하는 경우 (Ex_파티션 수 줄이기) 시스템에 의해 이뤄지는 셔플링 (Ex_그룹핑에서의 aggregation, sorting) 셔플링이 발생할 때 네트워크를 타고 데이터가 이동 파티션의 개수는 spark.sql.shuffle.partitions가 결정 (기본값은 200이..

ssung_데이터 엔지니어링/13주차_하둡과 Spark 2024.01.18

하둡&Spark_(1)

빅데이터 서버 한 대로 처리할 수 없는 데이터 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 4V (Volume, Velocity, Variety, Varecity) Volume - 데이터의 크기 Velocity - 데이터의 처리속도 Variety - 구조화/비구조화 데이터 Varecity - 데이터의 품질 빅데이터의 예 웹 수십 조개 이상의 웹 페이지 존재 -> 온갖 종류의 지식의 바다 웹 검색엔진 개발은 진정한 대용량 처리 사용자 검색어와 클릭 정보 자체도 대용량 요즘은 웹 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용 빅데이터의 처리 특징 큰 데이터를 손실없이 보관할 방법 필요 : 스토리지 처리 시간이 오래 걸림 : 병렬처리 빅데이터는 비구조화 된 데이터일 가능성이 높음 : SQL 만으로..

ssung_데이터 엔지니어링/13주차_하둡과 Spark 2024.01.18

250x250

ssungcohol 데이터 엔지니어로 성장하기

증감연산자, 등운동, 형변환 연산자, 삼항 연산자, 오운완, 논리연산자, 어깨운동, Java, 가슴운동, 하체운동, 변수, 삼두운동, math,

Today :
Yesterday :

728x90

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ssungcohol 데이터 엔지니어로 성장하기

ssung_데이터 엔지니어링/13주차_하둡과 Spark 2

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역