EDA (Exploratory Data Analysis, 탐색적 데이터 분석)
EDA란?
- 데이터 분석 과정에 대한 개념
- 데이터를 분석하고 결과는 내는 과정에 있어 지속적으로 해당 데이터에 대한 '탐색' 과 '이해'를 기본으로 가져야 한다는 것을 의미
- 데이터를 그래프, 통계적 방법으로 자료를 직관적으로 바라보는 과정
- 즉! 내가 가진 '데이터의 특성' 을 알아보는 작업
왜 필요한가?
- 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하기 위해
- 데이터에 대한 잠재적인 문제를 발견할 수 있음
- 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제 정의 단계에서 발견하지 못한 다양한 패턴을 발견해, 기존의 가설을 수정하거나 새로운 가정을 세울 수 있음 (변수 간 트렌드, 패턴, 관계 파악 및 가설 수립)
- 프로젝트 초기에 적절한 모델 및 기법의 선정을 지원
언제 작업이 이루어지는가?
- 연구의 초기 단계 혹은 데이터 정제 (Clean Data) 이후 단계에서 실행
- EDA 단계에서 얻은 인사이트를 통해 알고리즘의 발전을 지원, 성능 향상에 사용
EDA의 구성요소
Velleman and Hoaglin 이 EDA의 네 가지 기본 구성 요소를 다음과 같이 규정
(출처 : https://www.creative-wisdom.com/teaching/WBI/EDA.shtml)
- Data visualization (데이터 시각화)
- "그림은 천 마디 말보다 가치가 있다!"
- Residual analysis (잔여 분석)
- 데이터 = '적합도 + 잔차' or '모델 + 오차' 라는 모델을 따름
- 잔차를 검토함으로써 연구자는 모델 적합성을 평가 가능
- Data transformation or re-expression (데이터 변환 또는 재표현)
- EDA에서는 일반적으로 '비선형 변환'을 사용해 데이터 패턴 변경
- Resistance Procesures (저항 절차)
사용되는 툴
- 일회성 및 간략화
- Excel
- Google Spreadsheet
- Python
- 대시보드
- Tableau
- Google Spreadsheet
- Zepplin
- 심화 데이터, 모델링
- Python
- R
- SQL
728x90
'ssung_인턴일지' 카테고리의 다른 글
11-13일차_EDA 도출 (1) | 2024.07.18 |
---|---|
10일차_Image stitching (0) | 2024.07.14 |
8일차_Data Preprocessing(3) (0) | 2024.07.11 |
7일차_Data Preprocessing(2) (0) | 2024.07.08 |
5, 6일차_Data Preprocessing (0) | 2024.07.07 |