ssung_인턴일지

9일차_EDA란?

ssungcohol 2024. 7. 14. 15:31

EDA (Exploratory Data Analysis, 탐색적 데이터 분석)

EDA란?

  • 데이터 분석 과정에 대한 개념
  • 데이터를 분석하고 결과는 내는 과정에 있어 지속적으로 해당 데이터에 대한 '탐색' 과 '이해'를 기본으로 가져야 한다는 것을 의미
  • 데이터를 그래프, 통계적 방법으로 자료를 직관적으로 바라보는 과정
  • 즉! 내가 가진 '데이터의 특성' 을 알아보는 작업

왜 필요한가?

  • 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하기 위해
  • 데이터에 대한 잠재적인 문제를 발견할 수 있음
  • 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제 정의 단계에서 발견하지 못한 다양한 패턴을 발견해, 기존의 가설을 수정하거나 새로운 가정을 세울 수 있음 (변수 간 트렌드, 패턴, 관계 파악 및 가설 수립)
  • 프로젝트 초기에 적절한 모델 및 기법의 선정을 지원

언제 작업이 이루어지는가?

  • 연구의 초기 단계 혹은 데이터 정제 (Clean Data) 이후 단계에서 실행
  • EDA 단계에서 얻은 인사이트를 통해 알고리즘의 발전을 지원, 성능 향상에 사용

EDA의 구성요소

Velleman and Hoaglin 이 EDA의 네 가지 기본 구성 요소를 다음과 같이 규정
(출처 : https://www.creative-wisdom.com/teaching/WBI/EDA.shtml)

  • Data visualization (데이터 시각화)
    • "그림은 천 마디 말보다 가치가 있다!"
  • Residual analysis (잔여 분석)
    • 데이터 = '적합도 + 잔차' or '모델 + 오차' 라는 모델을 따름
    • 잔차를 검토함으로써 연구자는 모델 적합성을 평가 가능
  • Data transformation or re-expression (데이터 변환 또는 재표현)
    • EDA에서는 일반적으로 '비선형 변환'을 사용해 데이터 패턴 변경
  • Resistance Procesures (저항 절차)

사용되는 툴

  • 일회성 및 간략화
    • Excel
    • Google Spreadsheet
    • Python
  • 대시보드
    • Tableau
    • Google Spreadsheet
    • Zepplin
  • 심화 데이터, 모델링
    • Python
    • R
    • SQL
728x90

'ssung_인턴일지' 카테고리의 다른 글

11-13일차_EDA 도출  (1) 2024.07.18
10일차_Image stitching  (0) 2024.07.14
8일차_Data Preprocessing(3)  (0) 2024.07.11
7일차_Data Preprocessing(2)  (0) 2024.07.08
5, 6일차_Data Preprocessing  (0) 2024.07.07