Data Science/Statistics

Data Science/Statistics

[Python] 산술 평균, 기하 평균(Gmean), 조화 평균

데이터가 가진 특성에 대해 판단할 때 대표적으로 평균(mean), 중앙값(median), 최빈값(mode) 등을 이용하여 추정할 수 있다. 각 방법은 아래와 같은 특징들이 있다.- 평균(mean)산술 평균, 기하 평균, 조화 평균 등의 방식이 있다.변수의 관찰값들을 모두 계산한 것이므로 대푯값으로 바람직하다.추상적인 의미를 가진다.특이값의 영향을 받는 단점이 있다.- 중앙값(median), 최빈값(mode)특이값의 영향을 받지 않는다.중앙값은 데이터를 크기순서로 정리해야 하는 불편함이 있다.최빈값은 데이터가 적거나 복잡하면 구할 수 없다. 이번 포스트에선 평균에 대해 더 자세히 알아보려 한다. 산술 평균(Arithmetic mean)산술 평균(Arithmetic mean)은 우리가 알고 있는 가장 보편적..

Data Science/Statistics

상관관계(correlation)와 인과관계(causation)

상관관계(correlation)를 인과관계(causation)와 혼동하지 않도록 주의해야 한다. 변수 x는 변수 y를 예측할 때 유용할 수 있지만 이것이 x가 y의 원인이 된다는 의미는 아니기 때문이다. 또한 x가 y의 원인이 될 수 있지만 이와 동시에 y가 x의 원인이 될 수도 있다. 또는 둘 사이의 관계가 연구자가 상상했던 단순한 인과관계보다 더 복잡할 수도 있다. 실제 사례로 예를 들어보자. 2014년경 건보공단은 담배회사와 손해배상 청구 소송을 진행한 적이 있다. 내용은 담배회사의 담배 구조적 설계 결함과 담배회사의 불법행위로 3,465명의 흡연자가 폐암 등에 걸렸고, 공단은 이들에게 보험급여로 533억여 원을 지출했다고 주장한 것이었다. 공단 측 귀무가설과 대립가설을 아래와 같다. 편의상 간략하..

Data Science/Statistics

변인(Variables)의 종류

변인(Variables)이란 쉽게 말해 변수이다. 연구자가 실험을 설계할 때 여러 가지 상황이 존재하고 이에 따라 어떤 변수를 넣어 결과물을 도출하거나 연구 대상과의 상관관계를 찾아낼 수 있다. 즉, 실험 계획을 세울 때 어떻게 변인을 설정하고 관리하는지가 가장 중요하다고 볼 수 있다. 결과에 대한 방정식이 다음 수식 \( Y = \alpha X + \beta \)과 같을 때 변인이란 X와 Y에 해당한다. 하지만 우리는 변인을 설정하기 이전 측정을 해서 데이터를 확인해야 할 것이다. 변인에 값을 부여하는 과정이 측정이기 때문이다. CO2는 보통 400 이상의 값을 가지고 있고 미세먼지는 높아도 보통 100 이하의 수치를 띤다. 이 수치들이 의미하는 바는 측정 단위(unit)가 ppm, ppb인지 또는 \..

Data Science/Statistics

[Python] 주성분 분석(Principle Component Analysis, PCA)과 특이값 분해(Singular Value Decomposition, SVD)

주성분 분석(Principle Component Analysis, PCA)주성분 분석(Principle Component Analysis, PCA)이란 차원 축소 알고리즘 중 하나이다. 일반적으로 머신러닝을 이용해 문제 해결을 시도할 때 train sample은 보통 수천 또는 수백만 개의 특성(feature)을 가지고 있다. 이렇게 특성들이 많으면 이 중 어떤 특성이 유의미한 요소인지 찾기 힘들고 동시에 많은 불필요한 데이터로 인해 garbage in garbage out을 경험하게 된다. 뿐만 아니라 학습 시간이 길어져 결국 연구 결과 확인까지 오래 걸릴 수 있다. 따라서 이런 문제를 야기하는 것을 차원의 저주(curse of dimensionality)라고 한다. 다시 말해 결국 차원을 축소하면 이..

Data Science/Statistics

[Python] 로지스틱 회귀(Logistic Regression)와 이진 교차 엔트로피(Binary Cross Entropy)의 이해와 구현

주요 개념분류 알고리즘로지스틱 회귀(Logistic Regression)비용 함수 or 손실 함수(Cost Function or Loss Function)이진 교차 엔트로피(Binary Cross Entropy)경사 하강법(Gradient Descent)지역 최소(Local Minimum) 로지스틱 회귀(Logistic Regression) 로지스틱 회귀(Logistic Regression)는 범주형 변수를 예측하기 위해 설계된 알고리즘으로 선형 회귀 모델을 변형하여 확률 기반의 예측을 수행한다. 주로 이진 분류(binary classification) 문제에 사용되지만 다중 범주형 변수도 예측할 수 있다. 예를 들어 "합격/불합격", "스팸/비스팸", "긍정/부정"과 같은 이진 분류 문제 외에도 다중 ..

Data Science/Statistics

[Python] 다항 회귀(Polynomial Regression)의 이해와 구현

주요 개념다항 회귀(Polynomial Regression)비선형 데이터편향(Bias)분산(Variance) 다항 회귀(Polynomial Regression)란 비선형 데이터를 학습하기 위해 선형 모델을 사용하는 기법이다. 단순 선형 회귀(SLR)를 이용해 모든 데이터의 관계성을 직선으로 표현할 수는 없으므로 다항 회귀 또는 다중 선형 회귀(MLR) 등과 같은 조금 더 복잡한 회귀 모델이 때에 따라 최적의 회귀선을 나타내고는 한다. 각 변수의 거듭제곱을 새로운 변수로 추가하고 이 확장된 변수를 포함한 데이터셋에 선형 모델을 훈련시킨다. 다중 선형 회귀는 여러 독립 변수들이 필요한 반면 다항 회귀는 하나의 독립 변수에 대한 차수를 확장해가며 단항식이 아닌 2차, 3차 등의 회귀 모델을 도출한다. 다만 주..

AlienCoder
'Data Science/Statistics' 카테고리의 글 목록
loading