VIF

Data Science/Data Analysis

상관관계(Correlation)와 인과관계(Causation)

상관관계(Correlation)를 인과관계(Causation)와 혼동하지 않도록 주의해야 한다. 변수 x는 변수 y를 예측할 때 유용할 수 있지만 이것이 x가 y의 원인이 된다는 의미는 아니기 때문이다. 또한 x가 y의 원인이 될 수 있지만 이와 동시에 y가 x의 원인이 될 수도 있다. 또는 둘 사이의 관계가 연구자가 상상했던 단순한 인과관계보다 더 복잡할 수도 있다. 실제 사례로 예를 들어보자. 2014년경 건보공단은 담배회사와 손해배상 청구 소송을 진행한 적이 있다. 내용은 담배회사의 담배 구조적 설계 결함과 담배회사의 불법행위로 3,465명의 흡연자가 폐암 등에 걸렸고, 공단은 이들에게 보험급여로 533억여 원을 지출했다고 주장한 것이었다. 공단 측 귀무가설과 대립가설을 아래와 같다. 편의상 간략하..

Data Science/Data Analysis

[Python] VIF(Variance Inflation Factors)를 이용한 다중공선성(Multicollinearity) 판단

주요개념VIF(Variance Inflation Factors)다중공선성(Multicollinearity) 일반적으로 회귀분석은 독립 변수들을 선정하여야 한다. 이때 독립 변수 간 강한 상관관계가 나타나는 문제를 다중공선성문제(Multicollinearity)라고 한다. 이름에도 나와있듯 어떠한 독립 변수가 다른 독립 변수와 완전한 선형 독립이 아닌 경우를 말한다. 위의 그림처럼 독립 변수 n개를 이용하여 종속 변수 Y를 찾아내는 경우가 있다. 독립 변수들이 서로 상관관계가 높다면 결과를 도출하기 위한 데이터 분석 과정에서 부정적인 영향을 미치게 된다. 왜냐하면 독립 변수들의 영향력을 파악하여야 하는데 어떤 독립 변수 X1이 다른 독립 변수 X2에 영향을 미치고 있다면 우리가 원하는 "독립"된 변수가..

AlienCoder
'VIF' 태그의 글 목록
loading