![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbMSAWh%2FbtrpcOO3mYZ%2FBJEIPM0aUi5GdlyXKya0U0%2Fimg.png)
[Python] 확률(Probability)과 우도(가능도, Likelihood) 그리고 확률 밀도 함수(probability density function, PDF)
확률이란 모델 파라미터 값이 관측 데이터 없이 주어진 상태에서 랜덤한 출력이 일어날 가능성이고,우도(가능도)는 특정 관측 결과가 주어진 상태에서 모델 파라미터 값들이 나타날 가능성이라고 볼 수 있다. ..
확률이란 모델 파라미터 값이 관측 데이터 없이 주어진 상태에서 랜덤한 출력이 일어날 가능성이고,우도(가능도)는 특정 관측 결과가 주어진 상태에서 모델 파라미터 값들이 나타날 가능성이라고 볼 수 있다. ..
주요개념 VIF(Variance Inflation Factors) 다중공선성(Multicollinearity) 일반적으로 회귀분석은 독립 변수들을 선정하여야 한다. 이때 독립 변수 간 강한 상관관계가 나타나는 문제를 다중공선성문제(Multicollinearity)라고 한다. 이름에도 나와있듯 어떠한 독립 변수가 다른 독립 변수와 완전한 선형 독립이 아닌 경우를 말한다. 위의 그림처럼 독립 변수 n개를 이용하여 종속 변수 Y를 찾아내는 경우가 있다. 독립 변수들이 서로 상관관계가 높다면 결과를 도출하기 위한 데이터 분석 과정에서 부정적인 영향을 미치게 된다. 왜냐하면 독립 변수들의 영향력을 파악하여야 하는데 어떤 독립 변수 X1이 다른 독립 변수 X2에 영향을 미치고 있다면 우리가 원하는 "독립"된 변수가..
상관 분석(Correlation Analysis) 또는 상관 관계 분석은 두 변수 간에 어떤 선형적 관계를 가지는지 분석하는 기법으로 상관계수를 이용하여 측정하는 것이다. A와 B가 positive correlation이란 사실은 알 수 있지만, A의 증가가 원인이 되어 B가 증가하는지, B가 증가하는 것이 원인이 되어 A가 증가하는지는 알 수 없다. 따라서 원인과 결과에 대한 분석이 필요하다면 상관분석이 아니라 회귀 분석(Regression Analysis)을 수행하여야 한다. 상관 도표, ACF, PACF 등에서 등장하는 단어인 자기 상관이라는 단어를 다시 한번 정리해보려 한다.ACF와 PACF에 관한 내용은 여기를 참조하면 된다. 상관 계수(Correlation Coefficient)상관 계수(Co..
가설검정 가설검정이란 귀무가설과 대립가설을 세워 이 둘 중 어느 것이 참인 것인지 밝혀내는 검정방식이다. 일반적으로 귀무가설(H0)은 처음부터 버릴 것이라 생각하고 설정하는 가설이다. 반대로 대립가설(H1)은 귀무가설이 기각되었을 때 자동으로 참이 되는 귀무가설에 정반대의 결론이 도출되는 가설을 뜻한다. 즉, 이 두가지 가설을 모집단으로부터 표본을 추출해 분석한 후 채택하거나 기각하는 것을 가설검정이라고 한다. 귀무가설이 채택된다는 뜻은 기존의 개념이 참이고 새로운 가설은 거짓이 되는 것으로 볼 수 있고, 대립가설이 채택된다면 새로운 가설이 참으로 받아들여진다는 뜻이다. 하지만 이렇게 대립가설이 기각된다고 해서 항상 귀무가설이 참이라는 뜻으로 해석해서는 안된다. 만약 새로운 데이터가 쌓이고 이를 분석하게..
이제까지 정상성에 대한 판단 방식과 비정상성 데이터를 정상성 데이터로 바꾸는 방법들에 대해 포스팅했다. 기초적인 내용들이지만 이를 토대로 정상성 데이터를 이용한 시계열 데이터(Time Series) 예측(Forecasting)을 수행할 수 있다. 한번 더 시계열의 특성을 짚고 넘어가자면,$$ 시계열 데이터 = 규칙적인 패턴+불규칙적인 패턴 $$으로 볼 수 있다. 이중 규칙적인 패턴은 이전 결과 사이 발생하는 자기상관성과(Autocorrelativeness)과 이후 결과에 편향성을 초래하는 이동평균(Moving Average) 현상으로 구분할 수 있다. 반대로 불규칙적인 패턴은 white noise라 칭하고 평균이 0이며 일정한 분산을 지닌 정규분포에서 추출된 임의의 수치로 정의하고 있는데, 이런 정규분..
주요 개념 Augmented Dickey-Fuller Test (ADF Test) AR, MA, ARMA, ARIMA 모델을 적용하기 전, 우선 시계열 데이터를 정상성 데이터로 바꾼 후 사용하는 것이 바람직하다. 정상성을 띄기 위해선 시계열 데이터의 평균, 분산이 시간에 따라 일정해야 하고 lag에 따른 공분산이 일정해야 한다. 이를 위해 로그 변환을 해주거나 n차 차분을 적용해줄 수 있다. 시계열에 대한 자세한 사항은 여기를 참고하면 된다. 정상성에 대한 검증은 시각화를 하거나 상황에 대해 직관적인 판단을 통해 알 수 있지만 통계적인 정량적 방법으로 검증할 수 있는 방법을 사용하는 것이 데이터를 분석할 때 더 납득할 수 있는 방법이 될 것이다. 이를 위해 사용하는 방법 중 하나가 Augmented Di..