'2024/01/18 글 목록

2024/01/18 3

Spark 빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼 Spark 데이터 처리 흐름 데이터프레임(DF)은 작은 파티션들로 구성 데이터프레임은 한 번 만들어지면 수정 불가 (Immutable) 입력 데이터프레임을 원하는 결과 도출까지 다른 데이터 프레임으로 계속 변환 sort, group by, filter, map, join .... 셔플링 : 파티션 간에 데이터 이동이 필요한 경우 발생 셔플링이 발생하는 경우 명시적 파티션을 새롭게 하는 경우 (Ex_파티션 수 줄이기) 시스템에 의해 이뤄지는 셔플링 (Ex_그룹핑에서의 aggregation, sorting) 셔플링이 발생할 때 네트워크를 타고 데이터가 이동 파티션의 개수는 spark.sql.shuffle.partitions가 결정 (기본값은 200이..

ssung_데이터 엔지니어링/13주차_하둡과 Spark 2024.01.18

하둡&Spark_(1)

빅데이터 서버 한 대로 처리할 수 없는 데이터 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 4V (Volume, Velocity, Variety, Varecity) Volume - 데이터의 크기 Velocity - 데이터의 처리속도 Variety - 구조화/비구조화 데이터 Varecity - 데이터의 품질 빅데이터의 예 웹 수십 조개 이상의 웹 페이지 존재 -> 온갖 종류의 지식의 바다 웹 검색엔진 개발은 진정한 대용량 처리 사용자 검색어와 클릭 정보 자체도 대용량 요즘은 웹 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용 빅데이터의 처리 특징 큰 데이터를 손실없이 보관할 방법 필요 : 스토리지 처리 시간이 오래 걸림 : 병렬처리 빅데이터는 비구조화 된 데이터일 가능성이 높음 : SQL 만으로..

ssung_데이터 엔지니어링/13주차_하둡과 Spark 2024.01.18

24.01.18 - 운동일지

어깨 O.H.P - 5set 덤벨 숄더 프레스 - 4set 프론트 레이즈 - 4set 밴트 오버 바벨 레이즈 - 4set 사이드 레터럴 레이즈 - 4set 이두 바벨 컬 - 5set 해머 컬 - 4set

ssung_끄적끄적/운동일지_끄적 2024.01.18

250x250

ssungcohol 데이터 엔지니어로 성장하기

가슴운동, math, 삼항 연산자, 증감연산자, 오운완, 형변환 연산자, 삼두운동, 논리연산자, 어깨운동, 변수, 하체운동, Java, 등운동,

Today :
Yesterday :

728x90

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

2024/01/18 3

티스토리툴바