주어진 자료에 대한 판단을 위해 분포와 t-검정, ANOVA 등을 이용하여 데이터 분석을 수행한다. 결과를 유추하거나 적용할 때 개념과 수식을 명확히 하기 위해 작성하였다.
표준화
분포에 대한 이해를 위해 표준화에 대한 이해가 필요하다. 표준화란 기준점을 동일하게 맞춰 조사자가 자료들을 쉽게 비교할 수 있도록 만드는 과정으로, 대표적인 표준화 분포인 표준정규분포(Z-분포)는 평균을 0, 표준편차를 1로 만든다.
예를 들어 A가 영어 80점, 수학을 70점 맞았다고 했을 때 단순히 점수를 비교한다면 영어의 점수가 더 우위에 있다는 것을 알 수 있다. 하지만 반 평균 점수가 영어의 경우 90점, 수학의 경우 60점이라 한다면, 위의 판단이 틀렸다는 것을 알 수 있다.
위의 판단의 오류를 방지하기 위해 각 과목 점수에 대한 표준화를 실시하여 기준점을 동일하게 맞춘 후 비교하기 위해 표준화를 수행한다.
정규(가우시안) 분포(Normal distribution or Gaussian distribution)
표본의 특성을 파악하기 위해서는 우선 표본의 분포를 자세히 알아보아야 한다. 표본분포 중 가장 단순하면서 많이 나타나는 형태가 정규 분포(Normal distribution)이다. 정규 분포와 가우시안 분포(Gaussian distribution)는 같은 말이다. 정규분포는 어떤 사건이 일어난 빈도를 계산하여 그래프로 나타냈을 때 평균을 기준으로 좌우가 대칭되는 분포를 칭한다.
Z-분포 or 표준 정규 분포(Standard normal distribution)
다음으로 Z-분포(평균=0, 분산=1, 정규분포)는 표본의 개수가 충분할 때(30개 이상) 표준화 과정을 거친 정규분포를 Z-분포 혹은 표준정규분포(standard normal distribution)라고 한다. Z-분포는 평균=0, 분산=1인 정규분포를 따른다.
$$ Z=\frac{X-\mu}{\sigma} $$
위 수식에서 X=측정치, μ=모평균, σ=표준오차를 의미한다. Z-분포는 평균과 관련된 분포이다.
t-분포(Student’s t-distribution)
t-분포는 평균 검정을 하기 위해 고안된 평균과 관련된 분포이다. 표본의 개수가 충분하다면 Z-분포를 이용할 수 있겠지만, 표본이 충분하지 못한 경우(30개 이하)는 예측 범위를 넓게 잡아 Z-분포보다 꼬리가 긴 분포인 t-분포를 사용한다. 모집단의 평균이 10인데 표본 집단으로 사용하게 된 데이터의 평균이 20이라면 표본 데이터가 한쪽으로 치우치기 때문이다.
하지만 t분포는 표본이 충분하지 못하여 정규분포를 이루지 못할 가능성이 크기 때문에, 모집단은 정규분포를 이룬다는 가정하에 수행한다. 위의 '모집단은 정규분포를 이룬다는 가정'이 있기 때문에 t분포는 평균=0, 분산>1인 정규분포를 따른다. t는 자유도가 (n-1)인 t-분포를 따르며 수식은 아래와 같다.
$$ t=\frac{\bar{X}-\mu}{s/\sqrt(n)} $$
위 수식에서 \( \bar{X} \)=표본평균, μ=모평균, s/(√n)=표준오차, n=자유도를 의미한다. 여기서 자유도(degree of freedom)는 말 그대로 '자유스러운 정도'이다. 표본수가 n인 표본에서 표본평균 \( \bar{X} \)가 정해져 있다면 표본값 중 '자유롭게 변할 수 있는' 것은 n-1개의 표본이다.
예를 들어 3개의 시험을 봤는데 평균이 80점이고 2개의 시험에서 각각 70점, 90점의 성적을 받았다면 나머지 1개의 시험 성적은 평균에 의하여 반드시 80점이어야 한다. 따라서 이 경우에는 표본수가 3이지만 자유롭게 변할 수 있는 것은 2(3-1)개이다. 이때, μ=\( \bar{X}±t\frac{s}{\sqrt(n)} \)이다.
만약 [53.0, 51.5, 47.0, 54.5, 44.0, 53.0, 45.5, 56.0, 45.5]의 데이터가 있고, 자유도 8인 t분포를 따른다고 가정한다. 자유도 8인 t분포의 95% 신뢰구간은, 엑셀 함수에서 tinv(0.05,8)=2.31 이므로 -2.31≤t≤2.31 이라고 할 수 있다. 이 예시에서 \( \bar{X}=50 \), n=9, s=45이므로 46.5<=μ<=53.5가 된다.
Z-분포와 t-분포의 공식을 비교해보면 자유도를 제외하고는 식이 동일한 것을 볼 수 있다. 즉 표본의 개수 n이 충분히 많아지면 t-분포는 표준정규분포와 거의 동일한 형태를 보인다.
결론적으로 모분산을 알고 있다면 정규분포를 활용하고, 모분산을 모르는데 30<=n이면 Z-분포, n<30이라면 t-분포를 사용하면 된다.
위 그래프를 보면 Z-분포보다 t-분포의 범위가 더 넓다. 색칠한 부분은 좌우 각각 데이터의 2.5% 씩, 합쳐서 5%의 영역이다. 이대로 검정을 하면 표준정규분포는 중심과 2 정도만 차이나도 다르다는 결과를 주지만, t분포는 중심과 3이 차이 난다고 하여도 같다는 결과를 반환한다. 이러한 특성 때문에 t-분포는 보수적인 검정이라 볼 수 있는데 큰 특징이 없으면 두 집단이 다르다는 결과를 반환하지 않기 때문이다.
카이제곱 분포(Chi-Squared Distribution)
카이제곱 분포는 변동(분산)에 대한 분포이다. 또한 정규분포로부터 도출되는데, Z-분포의 제곱에 대한 분포이므로 항상 0보다 큰 을 가진다. 카이제곱 분포는 주로 모분산의 추정이나 계수 값을 해석하는 데 사용된다. 또 다른 특징은 변동의 '단위'와 '자료 수'를 반영할 수 있도록 고안된 분포라는 것이다.
단위가 반영이 되지 않았을 경우 한 집단은 cm 단위로 조사하고 다른 집단은 m단위로 표현되어 있는 길이가 있다면, 같은 수준의 변동을 가졌다고 해도 막상 제곱합을 구해보면 cm로 조사된 집단의 더 크게 나오기 때문이다.
또한 자료 수가 반영되지 않아 10개 데이터에서와 100개 데이터에서의 분산을 똑같이 보았을 때, 이는 '제곱의 합' 꼴로 표현되므로 자료 수가 많으면 많을수록 더욱 커질 수밖에 없기 때문이다. 아래는 카이제곱\(( \chi^2)\)값을 구하는 수식이다.
$$ \chi^2=\frac{(관측값-기대값)^2}{기대값} $$
아래는 카이제곱 분포의 수식이다.
$$ Q = \sum_{i=1}^{k}\chi_i^2 $$
수식에서 알 수 있듯 굳이 표준정규분포로부터 얻는 랜덤 변수들을 제곱해서 더해주는데, 이는 카이제곱 분포가 오차(error) 혹은 편차(deviation)를 분석할 때 도움을 받을 수 있는 분포이기 때문이다.
위 그래프는 자유도 k에 따른 \( Q \)분포 모양을 나타낸 그래프이다. 이는 즉, 표본의 개수(자유도)에 따라 각기 다른 분포를 나타내는 것을 뜻한다. 카이제곱(\(\chi^2\)) 분포는 중심극한정리에 따라 더해지는 변수가 많아질수록 정규분포에 가까워진다.
F-분포(Fisher–Snedecor distribution)
F-분포는 카이제곱들의 비(ratio)가 따르는 분포이다. 또한 F-분포는 연속 확률 분포로 F 검정(F test)과 분산분석(ANOVA,변량분석) 등에서 주로 사용된다. 두 확률변수 \( V_1, V_2 \)의 각각 자유도가 \( n-1, m-1 \)이고 서로 독립인 카이제곱 분포를 따른다고 할 때, 다음과 같이 정의되는 확률변수 F는 \( F_{(\nu1,\nu2)} \)로 표현되는데, 이때
$$ \nu_1=\frac{s_1}{n-1}, \nu_2=\frac{s_2}{m-1} $$
이다. 즉, \( F=\frac{nu_x}{nu_y} \)은 각 비율을 나타내고, 따라서 F는 자유도가 (n-1), (m-1)인 F-분포를 나타낸다.
위 그림은 자유도 d1과 d2에 따른 F-분포 모양을 나타낸 그래프이다.
\( \nu_1, \nu_2 \)가 각각 같다면(등분산을 만족한다면) F-분포는 1을 기준으로 값이 결정된다. 회색 그래프 또한 표본의 개수가 많아질수록 1과 가까운 분포를 나타낸다. 이러한 성질 때문에 F-분포는 분산의 동일성 여부를 판단하는 수단으로 사용된다.
분산을 알아야 하는 이유는 자료 비교의 신뢰성을 표현하기 때문이다.
예를 들어, 두 집단의 평균이 큰 차이가 없어도 그 평균의 변동이 크다면 신뢰하기 힘들다. 또한 변동은 볼륨을 뜻하기도 하는데 A라는 변동과 B라는 변동이 있을 때, 비교를 통하여 더 큰 볼륨(파워, 확장성)을 가진 변동을 알 수 있다.
위의 개념을 기반으로 통계 분석 방법을 살펴본다.
통계 분석에는 차이를 보는 분석인 t-test(t-검정)과 F-검정인 분산분석(ANOVA)이 있다.
관계를 보는 분석에는 회귀분석 등이 존재한다.
여기서 다룰 t-test(t-검정)과 F-검정의 공통점은 범주형 자료에 따른 연속형 자료의 차이를 볼 때 사용한다는 것이다. 또한 정상분포, 등분산성 가정이 전제한 모수 검증이 필요하다. 즉, 집단의 차이를 검증하기 위함이다. 다만 t-검정은 평균, F-검정은 분산에 대한 차이를 검증한다.
먼저 t-test(t-검정) 또는 차이 검증의 귀무가설과 대립가설이다.
- 귀무가설(H0): 두 집단 간의 평균 차이는 없을 것이다.
- 대립가설(H1): 두 집단 간의 평균 차이가 있을 것이다.
아래는 t-검정의 특징이다.
- t-분포 사용
- 범주형 자료의 집단이 2개일 경우 사용
- 모집단의 분산이나 표준편차를 알지 못할 때 사용
- 두 집단 평균의 차이가 통계적으로 유의한지 확인하는 검증 방식
- t-검정의 결과에서 차이가 유의하기 위해 차이 값이 커야 하고, 표준 편차가 작아야 하며, 표본크기가 충분히 커야함
- 단일표본 t검증(모집단1, 표본집단1), 독립표본 t검증(모집단2, 표본집단2), 대응표본 t검증(모집단1, 표본집단2-동일 집단 사전/사후검사)이 있음
t-검정을 위한 설문지의 예시는 아래와 같다.
[범주형 자료] 비교하고자 하는 두 집단을 알아보기 위한 질문
[연속형 자료] 실질적으로 확인하고자 하는 변수를 알아보는 질문
t값(t-value)은 가지는 의미는 표준오차와 표본평균사이의 차이의 비율이다.
다음으로 ANOVA(F-검정) 또는 분산 분석의 귀무가설과 대립가설이다.
- 귀무가설(H0): 집단 간 분산이 같을 것이다.
- 대립가설(H1): 집단 간 분산이 다를 것이다.
아래는 ANOVA(F-검정)의 특징이다.
- F-분포 사용
- 범주형 자료의 집단이 3개 이상일 경우 사용
- 분산의 차이가 통계적으로 유의한지 확인하는 검증 방식
- 독립변수의 수에 따라 N원 분산 분석(변량 분석)이라고 부름.
- F검증을 통해 집단 간 차이가 유의하더라도, 어떤 집단 간의 차이인지 명확이 확인하기 위하여, 사후검증을 하기도 함
- 사후 검증 방식 중 대표적인 것이 Tukey, bonferonni(가장 엄격), Scheffe검증이 있고 Scheffe를 가장 널리 활용함
f-검정을 위한 설문지 예시는 아래와 같다.
[범주형 자료] 비교하고자 하는 세 개 이상의 집단을 알아보는 질문
[연속형 자료] 실질적으로 확인하고자 하는 변수를 알아보는 질문
즉, F-검정은 t-검정을 이용해 반복된 비교를 했을 때 발생하는 오류 배제할 수 있다. 유의수준 0.05에서 3집단의 차이를 확인할 때 A-B-C 간의 차이를 한 번에 비교하는 것이 F-검정이라면, A-B, B-C, C-A로 세 번 검증하는 것이 t-test이다. 따라서 t-검정으로 다중 분산 분석을 수행하게 되면 귀무가설을 잘못 기각할 확률인 제1종 오류가 증가한다. 하지만 세 집단 이상을 비교하더라도 ‘상호작용’을 가정하지 않았다면, t-test를 활용하여 검증하는 것이 옳다.
관련 포스트
2022.02.16 - [Data Science/Statistics] - [Python] 분산 분석을 위한 ANOVA(Analysis Of Variance)
참고 자료
http://egloos.zum.com/luvredbean/v/1915082
https://blog.naver.com/gracestock_1/120200573668
https://specialscene.tistory.com/151
https://dlearner.tistory.com/30
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=antifatekr&logNo=221061029807
https://www.jmp.com/ko_kr/statistics-knowledge-portal/t-test/t-distribution.html