[빅데이터 시각화] #1. EDA란 무엇인가?

728x90
반응형
 
메모리 업데이트됨

EDA(Exploratory Data Analysis) 블로그 포스팅을 준비하는 데 도움이 되는 내용을 간단히 정리해볼게요.

1. EDA란 무엇인가?

EDA는 데이터 분석의 첫 단계로, 데이터의 특성을 이해하고, 패턴을 발견하며, 이상치와 중요한 변수를 탐지하는 과정입니다. 주로 시각화를 사용하여 데이터의 분포나 관계성을 파악합니다.

2. EDA의 주요 목표

  • 데이터의 분포와 기본 통계 이해
  • 이상치 탐지
  • 변수 간의 상관관계 탐색
  • 패턴이나 트렌드 발견

3. 기본적인 EDA 단계

  • 데이터 수집 및 불러오기: 데이터셋을 파악하고 불러옵니다.
  • 결측치 처리: 결측값의 존재를 확인하고 처리합니다.
  • 기본 통계량 확인: 평균, 중위수, 표준편차 등 기본 통계를 계산합니다.
  • 시각화: 데이터의 분포, 이상치를 탐지하기 위해 히스토그램, 상자 그림(box plot), 산점도(scatter plot) 등을 활용합니다.
  • 상관관계 분석: 변수 간의 관계를 파악하기 위해 상관 행렬을 생성합니다.

4. 시각화 도구

  • 히스토그램: 데이터의 분포를 보여줍니다.
  • 박스플롯: 데이터의 중앙값과 이상치를 확인할 수 있습니다.
  • 산점도: 두 변수 간의 관계를 시각적으로 표현합니다.
  • 히트맵(Heatmap): 상관관계를 직관적으로 표현할 때 사용합니다.
728x90
반응형