주요 개념
- 구조방정식 모델링(structural equation modeling, SEM)
- B
- Beta(\(\beta\))
- t
- se
- p
회귀분석 모델링을 진행하며 많은 논문들을 접하게 된다.
논문들 표에서 B, \( \beta \), t, se, p와 같은 약어와 기호들로 자주 표기하곤 한다. 이는 경로 분석, 회귀분석, 요인 분석을 합쳐 발전시킨 통계 방법인 구조방정식 모델링(structural equation modeling, SEM) 모형 분석을 할 때 필요한 수치들이다.
예시로 아래 논문의 표가 있다.
우선 B = estimates 값을 의미한다. 이는 회귀 모델에 얼마나 영향을 끼치는가를 나타내는 지표로 해석할 수 있다. 일차 방정식 y=ax+b에서 x의 계수가 B가 된다. 해당 회귀 모델에서 영향력이 큰 독립 변수를 찾는 것이 결과 도출에도 더 유익하므로 B값은 큰 게 좋다고 볼 수 있다.
반면 se는 표준 오차를 의미한다. 이는 표준편차인 sd를 제곱근 N으로 나눈 값인데 당연히 se는 작을수록 좋다.
하지만 B와 se가 각각 어느정도 되어야 좋은 수치인지는 데이터에 따라 다를 것이다.
이를 판단하기 위해 B값에 대한 se의 비중을 알기 위하여 B/se를 수행하고 t값을 산출한다. t=C.R.(Critical Ratio)인데 수식은 아래와 같다.
$$ C.R. = {{비표준 \lambda}\over{표준오차(se)}} $$
이는 람다의 유의성 판단에 이용하고 표준정규분포의 검정 통계량과 유사하다.
이 t의 기준은 1.96으로 잡는다. 이 수치는 정규분포곡선의 확률 밀도 함수 면적인 1에서 0.95(95%)의 면적을 가질 때 직선거리 값이다.
95%는 p-value의 0.05에서 많이 본 수치인데, 실제로도 유의확률(p-value)에 근거한 것이다. 이 유의확률이 위의 그림에 p값에 해당하는 값이다.
마지막으로 \( \beta \) = Standardized estimates이다. 즉, B/se = t가 되고 B값을 표준화시킨 것이 Beta(\( \beta \))가 된다.
참고 자료
Ho-Hyeong Yang1, Hyung-Joo Kim2, Sung-Won Bang3, Heun-Woo Cho4, and Ho-Hyun Kim, Analysis of Changes and Factors Influencing IAQ in Subway Stations Using IoT Technology after Bio-Filter System Installation, J Environ Health Sci. 2021
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=fox4361&logNo=220302638634