Data Science/Statistics

Data Science/Statistics

여러가지 분포(정규 분포, Z-분포, t-분포, 카이제곱 분포, F-분포)와 t-검정, F-검정의 이해

주어진 자료에 대한 판단을 위해 분포와 t-검정, ANOVA 등을 이용하여 데이터 분석을 수행한다. 결과를 유추하거나 적용할 때 개념과 수식을 명확히 하기 위해 작성하였다. 표준화분포에 대한 이해를 위해 표준화에 대한 이해가 필요하다. 표준화란 기준점을 동일하게 맞춰 조사자가 자료들을 쉽게 비교할 수 있도록 만드는 과정으로, 대표적인 표준화 분포인 표준정규분포(Z-분포)는 평균을 0, 표준편차를 1로 만든다.예를 들어 A가 영어 80점, 수학을 70점 맞았다고 했을 때 단순히 점수를 비교한다면 영어의 점수가 더 우위에 있다는 것을 알 수 있다. 하지만 반 평균 점수가 영어의 경우 90점, 수학의 경우 60점이라 한다면, 위의 판단이 틀렸다는 것을 알 수 있다.위의 판단의 오류를 방지하기 위해 각 과목 점..

Data Science/Statistics

[Python] 이상치(Outlier) 탐색을 위한 IQR(Interquartile Range)

주요 개념 이상치(Outlier) IQR(Interquartile Range) 이상치(Outlier)는 현재 가지고 있는 데이터 표본에 일관성 또는 연관성이 떨어지는 부분이다. 데이터 수집 장치 또는 수신부의 이상으로 인해 노이즈가 섞이는 경우 등 이런 이상치가 포함될 수 있다. 따라서 데이터를 정제하는 과정 중 이상치 제거는 필수적인 부분이다. EDA 과정 중 1차적으로 결측치와 이상치 등을 판단해 필터링을 수행해야 하는데, 이때 IQR(Interquartile Range)을 통해 이상치에 대한 판단을 할 수 있다. IQR은 분위(Quantile)라는 개념에 기초한다. 전체 데이터들을 오름차순으로 정렬하고, 정확히 4등분(25%, 50%, 75%, 100%)으로 나누는데 이 때 Q3(75%) - Q1(..

Data Science/Statistics

[Python] 분산 분석을 위한 ANOVA(Analysis Of Variance)

주요 개념귀무가설대립가설ANOVA(Analysis Of Variance, 분산 분석) ANOVA(Analysis Of Variance, 분산 분석)은 독립 변수가 하나이고 측정 집단이 3개 이상인 다수 집단의 평균(또는 산술 평균)에서 분산 값을 비교하는 데 사용되는 통계 공식이다.  A 그림: ANOVA 분석 결과, 그룹 사이의 차이가 없음B 그림: ANOVA 분석 결과, 그룹 사이의 유의한 차이가 존재 예를 들어, 과학자들은 다양한 당뇨병 약물의 효과를 연구할 목적으로 약물 유형과 그에 따른 혈당 수치 사이의 관계를 설정하고 실험하여 조사했다 가정한다. 이때 표본 집단은 사람들의 집합이다. 샘플 모집단을 여러 그룹으로 나누고 각 그룹은 시험 기간 동안 특정 의약품을 투여받는다. 시험 기간이 끝나면 각..

Data Science/Statistics

[Python] 결정계수 R2 score(R-squared)와 조정된 결정계수(Adjusted R-squared)의 이해

결정계수 - R2 score(R-squared)결정계수는 상관계수를 제곱한 값으로 보면 된다. 하지만 결정계수는 상관계수와 달리 변수간 영향을 주는 정도 또는 인과 관계의 정도를 정량화해서 나타낸 수치라는 것이다. 따라서, 결정계수는 상관 분석이 아닌 회귀 분석에서 사용하는 수치라고 할 수 있다. 결정 계수를 나타내는 R2 score(R-squared)는 회귀 모델의 성능에 대한 평가 지표이다.결정계수(R-squared)란 일반적으로 \( R^2 \)으로 표기된다. 회귀모델에서 독립 변수가 종속 변수를 얼마나 잘 설명해주는지 보여주는 지표이다. 결정계수가 높을수록 독립 변수가 종속 변수를 잘 설명한다는 뜻인데, 이때 독립 변수의 개수가 증가하면 함께 증가한다. 그러므로 결정계수에만 의존하여 회귀 모델을 ..

Data Science/Statistics

[Python] 길이가 다른 데이터 유사도 측정을 위한 DTW(Dynamic Time Warping)

DTW(Dynamic Time Warping, 동적 시간 워핑) DTW(Dynamic Time Warping, 동적 시간 워핑)란 두 개의 시계열이 존재할 때 상호 간 얼마나 유사한지 측정하기 위한 방식이다. 길이가 동일한 시계열의 유사도를 측정하는 방법은 다양하다. 코사인 유사도를 사용해도 되고, 유클리드 거리(Euclidean Distance)를 이용해 계산하면 유사도를 판단할 수 있다. 유클리드 거리는 두 점사이의 거리를 계산할 때 사용하는 방법인데 수식은 아래와 같다. $$ d = \sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_n-b_n)^2} $$ 유클리드 거리는 계산이 쉽고 연산 속도가 빠르다는 장점이 있다. 하지만 유클리드 거리는 같은 시점의 거리를 계산하기 때문에 속도를..

Data Science/Statistics

[Python] 유클리드 거리(Euclidean Distance), 맨하탄 거리(Manhattan Distance), 해밍 거리(Hamming Distance)를 이용한 두 점 사이의 거리 구하기

주요 개념 유클리드 거리(Euclidean Distance) 맨하탄 거리(Manhattan Distance) 해밍 거리(Hamming Distance) 두 점 사이의 거리를 구하는 방법은 유사도(Similarity)와 관련이 있다. 거리가 가까울수록 해당 데이터가 가지고 있는 특징(feature)이 유사할 가능성이 크기 때문이다. 두 점사이 거리를 구하기 위한 대표적인 방법으로 아래 세 가지가 있다. 하지만 아래 방식들은 데이터의 차원과 요소 개수가 동일해야 한다. 유클리드 거리(Euclidean Distance) 우선 유클리드 거리(Euclidean Distance)는 아래 그림과 같이 계산할 수 있다. 피타고라스 정리와 크게 다르지 않다. 다만 차수가 많아져도 아래와 같이 계산할 수 있다. $$ d ..

AlienCoder
'Data Science/Statistics' 카테고리의 글 목록 (3 Page)
loading