CDA(Confirmatory Data Analysis)와 EDA(Exploratory Data Analysis)는 데이터 분석을 위한 2가지 방법이다.
따라서 이러한 과정들을 토대로 데이터의 유의미한 패턴을 찾아 인사이트를 도출할 수 있다.
CDA(Confirmatory Data Analysis)
우선 CDA(Confirmatory Data Analysis)는 확증적 데이터 분석인데 가설을 세운 후 이를 데이터를 통해 검증하는 방식이다.
- 목적을 가지고 데이터를 확보하여 분석하는 방법
- 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등 통계적 추론을 하는 단계
- 가설검정, 보통은 설문조사, 논문에 대한 내용을 입증하는데 많이 사용
따라서 사회과학에서 많이 사용되는 연역적 방법과 같이 선이론-후조사 하는 탐색 방법이라 볼 수 있다.
e.g. 사람은 죽는다(이론) -> 소크라테스는 사람이다(조작화) -> 따라서 소크라테스는 죽는다(관찰, 경험)
EDA(Exploratory Data Analysis)
EDA(Exploratory Data Analysis)는 탐색적 데이터 분석인데 데이터를 먼저 살펴본 후 인사이트를 도출하는 과정이다.
- 쌓여있는 데이터를 기반으로 가설을 세워 데이터를 분석하는 방법
- 데이터의 구조와 특징을 파악하며 여기서 얻은 정보를 바탕으로 통계모형을 만드는 단계
- 빅데이터 분석에 사용됨
이러한 방식은 문화인류학에서 많이 사용되는 귀납적 방법과 유사한데 개별적 사실에서부터 보편적 진리를 도출해내는 것으로 볼 수 있다.
e.g. 뉴턴은 죽는다(관찰) -> 칸트도 죽는다.(관찰) -> 퓨리에도 죽는다.(관찰) -> 모든 사람은 죽는다.(이론)
이 탐색적 데이터 분석에는 추론통계와 기술통계가 있다.
추론 통계란 수집 데이터 기반 신뢰구간 추정, 유의성 검정 기법 등을 이용한 것을 말하고,
기술 통계란 수집 데이터 기반 요약, 묘사, 설명하는 통계 기법으로 데이터의 대표값, 분포 등을 이용한 것이다.
일반적으로 EDA를 이용하여 데이터의 인사이트를 도출하는데 이 때, Graphic(시각화) 도구를 이용해 데이터의 특이성, 이상치들 또는 해당 데이터에서 특정한 패턴을 발견할 수 있고 Summary Statistics와 같은 Non-Graphic(비시각화)한 방식을 사용할 수도 있다.
이러한 과정없이 본인의 직관만을 가지고 데이터를 사용하게 되면 독특한 패턴이 발견될 때마다 다른 관점으로 데이터를 해석할 필요가 생길 수 있고, 사실 직관이라는 것 또한 그것에 대해 의사 코드로 작성할 수 있다면 그때부턴 감이 아닌 수치가 되기 때문에 차라리 가설을 세우기 전에 데이터를 이해하는 것을 목표로 두고 데이터 분석을 우선적으로 수행하는 것이 바람직하다고 생각한다.
참고 자료
https://hackersstudy.tistory.com/122