'Data Science/Statistics' 카테고리의 글 목록

공분산(Covariance)과 상관 계수(Correlation Coefficient)

2025.02.08

공분산(Covariance)과 상관 계수(Correlation Coefficient)는 통계학, 데이터 분석, 머신러닝, 금융, 경제학 등에서 널리 사용되고 있다. 대표적으로 데이터 분석 분야에선 변수 간의 관계를 분석하여 데이터의 패턴을 파악하는 데 활용된다. 뿐만 아니라 피처 선택(Feature Selection)에서 상관성이 높은 변수 중 일부를 제거하여 다중공선성 문제를 방지할 때 사용된다. 현재 관심 분야인 신호 처리 및 공학 분야에선 센서 데이터 분석에서 여러 신호 간의 관계를 파악하거나 이미지 및 음성 처리에서도 변수 간의 연관성을 분석할 때 활용된다. 공분산(Covariance)공분산에 대해 설명하기 전 분산(Variance)에 대해 간단히 짚고 넘어가야 한다. 분산이란 내가 가진 데이터가..

Data Science/Statistics

[Python] 산술 평균, 기하 평균(Gmean), 조화 평균

2024.04.13

데이터가 가진 특성에 대해 판단할 때 대표적으로 평균(mean), 중앙값(median), 최빈값(mode) 등을 이용하여 추정할 수 있다. 각 방법은 아래와 같은 특징들이 있다.평균(mean)산술 평균, 기하 평균, 조화 평균 등의 방식이 있다.변수의 관찰값들을 모두 계산한 것이므로 대푯값으로 바람직하다.추상적인 의미를 가진다.특이값의 영향을 받는 단점이 있다.중앙값(median), 최빈값(mode)특이값의 영향을 받지 않는다.중앙값은 데이터를 크기순서로 정리해야 하는 불편함이 있다.최빈값은 데이터가 적거나 복잡하면 구할 수 없다. 이번 포스트에선 평균에 대해 더 자세히 알아보려 한다. 산술 평균(Arithmetic mean)산술 평균(Arithmetic mean)은 우리가 알고 있는 가장 보편적인 평균..

Data Science/Statistics

상관관계(Correlation)와 인과관계(Causation)

2024.04.11

상관관계(Correlation)를 인과관계(Causation)와 혼동하지 않도록 주의해야 한다. 변수 x는 변수 y를 예측할 때 유용할 수 있지만 이것이 x가 y의 원인이 된다는 의미는 아니기 때문이다. 또한 x가 y의 원인이 될 수 있지만 이와 동시에 y가 x의 원인이 될 수도 있다. 또는 둘 사이의 관계가 연구자가 상상했던 단순한 인과관계보다 더 복잡할 수도 있다. 실제 사례로 예를 들어보자. 2014년경 건보공단은 담배회사와 손해배상 청구 소송을 진행한 적이 있다. 내용은 담배회사의 담배 구조적 설계 결함과 담배회사의 불법행위로 3,465명의 흡연자가 폐암 등에 걸렸고, 공단은 이들에게 보험급여로 533억여 원을 지출했다고 주장한 것이었다. 공단 측 귀무가설과 대립가설을 아래와 같다. 편의상 간략하..

Data Science/Statistics

변인(Variables)의 종류

2022.12.08

변인(Variables)이란 쉽게 말해 변수이다. 연구자가 실험을 설계할 때 여러 가지 상황이 존재하고 이에 따라 어떤 변수를 넣어 결과물을 도출하거나 연구 대상과의 상관관계를 찾아낼 수 있다. 즉, 실험 계획을 세울 때 어떻게 변인을 설정하고 관리하는지가 가장 중요하다고 볼 수 있다. 결과에 대한 방정식이 다음 수식 \( Y = \alpha X + \beta \)과 같을 때 변인이란 X와 Y에 해당한다. 하지만 우리는 변인을 설정하기 이전 측정을 해서 데이터를 확인해야 할 것이다. 변인에 값을 부여하는 과정이 측정이기 때문이다. CO2는 보통 400 이상의 값을 가지고 있고 미세먼지는 높아도 보통 100 이하의 수치를 띤다. 이 수치들이 의미하는 바는 측정 단위(unit)가 ppm, ppb인지 또는 \..

Data Science/Statistics

[Python] 주성분 분석(Principle Component Analysis, PCA)과 특이값 분해(Singular Value Decomposition, SVD)

2022.11.25

주성분 분석(Principle Component Analysis, PCA)주성분 분석(Principle Component Analysis, PCA)이란 차원 축소 알고리즘 중 하나이다. 일반적으로 머신러닝을 이용해 문제 해결을 시도할 때 train sample은 보통 수천 또는 수백만 개의 특성(feature)을 가지고 있다. 이렇게 특성들이 많으면 이 중 어떤 특성이 유의미한 요소인지 찾기 힘들고 동시에 많은 불필요한 데이터로 인해 garbage in garbage out을 경험하게 된다. 뿐만 아니라 학습 시간이 길어져 결국 연구 결과 확인까지 오래 걸릴 수 있다. 따라서 이런 문제를 야기하는 것을 차원의 저주(curse of dimensionality)라고 한다. 다시 말해 결국 차원을 축소하면 이..

Data Science/Statistics

[Python] 로지스틱 회귀(Logistic Regression)와 이진 교차 엔트로피(Binary Cross Entropy)의 이해와 구현

2022.03.02

주요 개념분류 알고리즘로지스틱 회귀(Logistic Regression)비용 함수 or 손실 함수(Cost Function or Loss Function)이진 교차 엔트로피(Binary Cross Entropy)경사 하강법(Gradient Descent)지역 최소(Local Minimum) 로지스틱 회귀(Logistic Regression) 로지스틱 회귀(Logistic Regression)는 범주형 변수를 예측하기 위해 설계된 알고리즘으로 선형 회귀 모델을 변형하여 확률 기반의 예측을 수행한다. 주로 이진 분류(binary classification) 문제에 사용되지만 다중 범주형 변수도 예측할 수 있다. 예를 들어 "합격/불합격", "스팸/비스팸", "긍정/부정"과 같은 이진 분류 문제 외에도 다중 ..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Data Science/Statistics

공분산(Covariance)과 상관 계수(Correlation Coefficient)

[Python] 산술 평균, 기하 평균(Gmean), 조화 평균

상관관계(Correlation)와 인과관계(Causation)

변인(Variables)의 종류

[Python] 주성분 분석(Principle Component Analysis, PCA)과 특이값 분해(Singular Value Decomposition, SVD)

[Python] 로지스틱 회귀(Logistic Regression)와 이진 교차 엔트로피(Binary Cross Entropy)의 이해와 구현

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역