Data Science

Data Science/Statistics

[Python] ACF(Autocorrelation function), PACF(Partial Autocorrelation function)의 이해

상관도표(Correlogram)는 시계열 데이터를 분석에서 자주 활용되는데 자기상관함수(Autocorrelation Function, ACF) 또는 편자기상관함수(Partial Autocorrelation Function, PACF)를 그래프로 표현한 것을 뜻한다. 우리가 자주 말하는 Correlation은 두 변수 간의 관계를 -1~1 사이로 정규화한 값으로 표현하는 척도인데, Autocorrelation은 time shifted된 자기 자신의 데이터와의 상관성을 의미한다. 이 ACF와 PACF는 ARIMA 모델의 파라미터가 되는 p, d, q의 최적 차수를 탐색할 때 유용하게 사용된다. p는 AR, d는 차분 횟수, q는 MA와 관련이 있는 파라미터이다. ACF와 PACF 설명 이전에 자기회귀 모형(..

Data Science/Statistics

[Python] 정상성(Stationarity) 데이터를 얻기 위한 로그 변환(Log transformation)과 차분(Differencing)

정상성(Stationarity)정상성(Stationarity)이란 언제 관측되는지에 관계없이 어떤 시점에 관찰하더라도 예측할 수 있는 패턴을 발견할 수 없는 것을 뜻한다.정상성에 대한 자세한 사항은 여기를 참조하면 된다. 로그 변환(Log Transform)비정상성 시계열을 정상성으로 변환하는 방법은 로그 변환(Log Transformation)과 차분(Differencing) 2가지가 있다.우선 로그 변환(Log Transformation)이란 변동폭이 일정하지 않은 경우 사용할 수 있는데 일반적인 수학의 x를 log(x)로 바꾸는 변환 방식이다. 로그 변환은 원본 데이터의 왜곡을 줄이거나 제거하는데 여기서 주의할 점은 원 데이터가 로그 정규 분포를 따르거나 대략 따라줘야 한다. 그렇지 않으면 로그 변..

Data Science/Statistics

[Python] 정상성(Stationarity)과 비정상성(Non-Stationary)

시계열 데이터(Time Series Data)정상성과 비정상성에 대한 구별에 앞서 시계열 데이터의 특징에 대해 간략하게 알고 넘어가는 것이 좋다. 시계열 데이터에 대한 대표적인 특징은 아래와 같다.Trend(추세성)Seasonality(계절성)Aberration(이변성)Volatility(변동성)Non-linearity(비선형성)시계열 데이터는 크게 정상성 데이터와 비정상성 데이터로 나눌 수 있다. 정상성(Stationarity)정상성(Stationarity)이란 사전적 정의로는 일정하여 늘 한결같은 성질을 의미한다. 시계열 데이터를 다룰 때 정상성 데이터는 해당 데이터가 관측된 시간과 무관한 데이터를 뜻한다. 직관적으로 보자면 데이터의 분포에서 평균과 분산이 일정하면 정상성이라고 볼 수 있다.  예를 ..

Data Science/Statistics

귀무가설(Null Hypothesis) vs 대립가설(Alternative Hypothesis), 그리고 p-value(유의확률)

주요 개념귀무가설(Null Hypothesis)대립가설(Alternative Hypothesis) 귀무가설(H0)은 영 가설이라고도 한다. 통계학에서 처음부터 버릴 것이라 생각하고 설정하는 가설이다.반대로 대립가설(H1)은 귀무가설이 기각되었을 때 자동으로 참이 되는 가설을 뜻한다.기본적으로는 참으로 추정하고 이를 기각하기 위해서 증거가 필요하다.예를 들어 "재실자수 증가는 이산화탄소 수치의 증가에 영향을 끼치지 않는다."라는 귀무가설이 있다고 하자. H0 = 귀무가설,μ1 = 이산화탄소 수치,μ2 = 재실자 수 이면H0 : μ1∝1/μ2 이다. 그렇다면 이 상황에선 "재실자수 증가는 이산화탄소 수치에 영향을 끼친다."가 대립가설이 되고 이는 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내..

Data Science/Statistics

CDA(Confirmatory Data Analysis)와 EDA(Exploratory Data Analysis)를 통한 데이터 분석

CDA(Confirmatory Data Analysis)와 EDA(Exploratory Data Analysis)는 데이터 분석을 위한 2가지 방법이다.따라서 이러한 과정들을 토대로 데이터의 유의미한 패턴을 찾아 인사이트를 도출할 수 있다.  CDA(Confirmatory Data Analysis)우선 CDA(Confirmatory Data Analysis)는 확증적 데이터 분석인데 가설을 세운 후 이를 데이터를 통해 검증하는 방식이다.목적을 가지고 데이터를 확보하여 분석하는 방법관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등 통계적 추론을 하는 단계가설검정, 보통은 설문조사, 논문에 대한 내용을 입증하는데 많이 사용 따라서 사회과학에서 많이 사용되는 연역적 방법과 같이 선이론-후조사..

AlienCoder
'Data Science' 카테고리의 글 목록 (11 Page)
loading