Data Science/Data Analysis
[Python] 이상치(Outlier) 탐색을 위한 IQR(Interquartile Range)
주요 개념이상치(Outlier)IQR(Interquartile Range) 이상치(Outlier)는 현재 가지고 있는 데이터 표본에 일관성 또는 연관성이 떨어지는 부분이다. 데이터 수집 장치 또는 수신부의 이상으로 인해 노이즈가 섞이는 경우 등 이런 이상치가 포함될 수 있다. 따라서 데이터를 정제하는 과정 중 이상치 제거는 필수적인 부분이다. EDA 과정 중 1차적으로 결측치와 이상치 등을 판단해 필터링을 수행해야 하는데, 이때 IQR(Interquartile Range)을 통해 이상치에 대한 판단을 할 수 있다. IQR은 분위(Quantile)라는 개념에 기초한다. 전체 데이터들을 오름차순으로 정렬하고, 정확히 4등분(25%, 50%, 75%, 100%)으로 나누는데 이 때 Q3(75%) - Q1(2..