내가 까먹을까봐 만든 블로그

전체 글

Data Science/Statistics

[Python] 정상성(Stationarity) 데이터를 얻기 위한 로그 변환(Log transformation)과 차분(Differencing)

정상성(Stationarity)정상성(Stationarity)이란 언제 관측되는지에 관계없이 어떤 시점에 관찰하더라도 예측할 수 있는 패턴을 발견할 수 없는 것을 뜻한다.정상성에 대한 자세한 사항은 여기를 참조하면 된다. 로그 변환(Log Transform)비정상성 시계열을 정상성으로 변환하는 방법은 로그 변환(Log Transformation)과 차분(Differencing) 2가지가 있다.우선 로그 변환(Log Transformation)이란 변동폭이 일정하지 않은 경우 사용할 수 있는데 일반적인 수학의 x를 log(x)로 바꾸는 변환 방식이다. 로그 변환은 원본 데이터의 왜곡을 줄이거나 제거하는데 여기서 주의할 점은 원 데이터가 로그 정규 분포를 따르거나 대략 따라줘야 한다. 그렇지 않으면 로그 변..

Data Science/Statistics

[Python] 정상성(Stationarity)과 비정상성(Non-Stationary)

시계열 데이터(Time Series Data)정상성과 비정상성에 대한 구별에 앞서 시계열 데이터의 특징에 대해 간략하게 알고 넘어가는 것이 좋다. 시계열 데이터에 대한 대표적인 특징은 아래와 같다.Trend(추세성)Seasonality(계절성)Aberration(이변성)Volatility(변동성)Non-linearity(비선형성)시계열 데이터는 크게 정상성 데이터와 비정상성 데이터로 나눌 수 있다. 정상성(Stationarity)정상성(Stationarity)이란 사전적 정의로는 일정하여 늘 한결같은 성질을 의미한다. 시계열 데이터를 다룰 때 정상성 데이터는 해당 데이터가 관측된 시간과 무관한 데이터를 뜻한다. 직관적으로 보자면 데이터의 분포에서 평균과 분산이 일정하면 정상성이라고 볼 수 있다.  예를 ..

Data Science/Statistics

귀무가설(Null Hypothesis) vs 대립가설(Alternative Hypothesis), 그리고 p-value(유의확률)

주요 개념귀무가설(Null Hypothesis)대립가설(Alternative Hypothesis) 귀무가설(H0)은 영 가설이라고도 한다. 통계학에서 처음부터 버릴 것이라 생각하고 설정하는 가설이다.반대로 대립가설(H1)은 귀무가설이 기각되었을 때 자동으로 참이 되는 가설을 뜻한다.기본적으로는 참으로 추정하고 이를 기각하기 위해서 증거가 필요하다.예를 들어 "재실자수 증가는 이산화탄소 수치의 증가에 영향을 끼치지 않는다."라는 귀무가설이 있다고 하자. H0 = 귀무가설,μ1 = 이산화탄소 수치,μ2 = 재실자 수 이면H0 : μ1∝1/μ2 이다. 그렇다면 이 상황에선 "재실자수 증가는 이산화탄소 수치에 영향을 끼친다."가 대립가설이 되고 이는 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내..

Data Science/Statistics

CDA(Confirmatory Data Analysis)와 EDA(Exploratory Data Analysis)를 통한 데이터 분석

CDA(Confirmatory Data Analysis)와 EDA(Exploratory Data Analysis)는 데이터 분석을 위한 2가지 방법이다. 따라서 이러한 과정들을 토대로 데이터의 유의미한 패턴을 찾아 인사이트를 도출할 수 있다. CDA(Confirmatory Data Analysis) 우선 CDA(Confirmatory Data Analysis)는 확증적 데이터 분석인데 가설을 세운 후 이를 데이터를 통해 검증하는 방식이다. 목적을 가지고 데이터를 확보하여 분석하는 방법 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등 통계적 추론을 하는 단계 가설검정, 보통은 설문조사, 논문에 대한 내용을 입증하는데 많이 사용 따라서 사회과학에서 많이 사용되는 연역적 방법과 같이 선이론..

alien_coder
외부 저장소