Data Science

Data Science/SR & VC

푸리에 급수(Fourier Series)와 푸리에 계수(Fourier Coefficient)

신호처리를 처음 접했던 이후 언젠가 푸리에 변환에 대한 제대로 된 이해와 정리가 필요하다 느꼈다. 푸리에 변환에 대해 공부하기 전 사전 지식으로 푸리에 급수(Fourier Series)와 푸리에 계수(Fourier Coefficient)에 대해 먼저 정리하려 한다. 푸리에 급수와 푸리에 계수에 대한 설명 이전에 이해를 돕기 위해 Sinusoids(정현파)와 Periodic Waveforms(주기 신호)에 대해서 간단히 설명하려 한다. 우선 Sinusoids이다. 이는 시간에 따라 변하는 신호를 설명하는 기본적인 수학적 표현이다. 즉, 코사인파(cosine wave) 또는 사인파(sine wave)를 수식으로 나타낸 것이다. $$ x(t) = A \cos(2\pi f t + \phi) = A \cos(\o..

Data Science/ML & DL

Inductive Bias(귀납적 편향)

Transformer 관련 논문을 읽어보다 표에서 Inductive Bias라는 항목을 보아 무엇인지 좀 더 상세히 알아보려 한다. 머신러닝 모델이 새로운 데이터를 학습할 때, 단순히 모든 가능성을 고려하는 것이 아니라 특정한 방향성을 가지고 일반화하는 경향이 있다. 이러한 경향성을 Inductive Bias(귀납적 편향)이라고 한다. 즉, 모델이 학습되지 않은 데이터에 대해 합리적인 예측을 수행하기 위해 가지는 선험적 가정(Prior Assumption)이다. 쉽게 말해 학습 알고리즘에서 학습자가 아직 접하지 않은 주어진 입력의 출력을 예측하기 위해 사용하는 일련의 가정이다. 우선 Bias(편향)이란 어떤 것인지 먼저 살펴보자. Bias(편향)이란?Bias는 일반적으로 데이터 또는 모델이 특정 방향으로..

Data Science/ML & DL

[ML][Python] 서포트 벡터 머신(Support Vector Machine, SVM)

SVM(Support Vector Machine)은 지도 학습(Supervised Learning) 알고리즘 중 하나로, 주어진 데이터가 어떤 카테고리에 속하는지를 분류하는 데 사용된다. 특히 이진 분류 문제에서 강력한 성능을 발휘하며, 고차원 공간에서도 효과적으로 작동하는 특징을 가진다. SVM은 다양한 분야에서 활용되고 있다. 얼굴 인식, 손글씨 숫자 인식 등의 이미지 분류 문제에서 높은 성능을 보인다. 또한 스팸 메일 필터링, 감성 분석과 같은 자연어 처리 분야에서도 활용할 수 있다. 더 나아가 유전자 데이터 분석에도 활용되는데 질병 예측, 유전자 패턴 분석 등에서 사용 가능하다. SVM이란SVM은 데이터를 가장 잘 분리할 수 있는 결정 경계(Decision Boundary)를 찾는 것이 핵심이다...

Data Science/Data Analysis

공분산(Covariance)과 상관 계수(Correlation Coefficient)

공분산(Covariance)과 상관 계수(Correlation Coefficient)는 통계학, 데이터 분석, 머신러닝, 금융, 경제학 등에서 널리 사용되고 있다. 대표적으로 데이터 분석 분야에선 변수 간의 관계를 분석하여 데이터의 패턴을 파악하는 데 활용된다. 뿐만 아니라 피처 선택(Feature Selection)에서 상관성이 높은 변수 중 일부를 제거하여 다중공선성 문제를 방지할 때 사용된다. 현재 관심 분야인 신호 처리 및 공학 분야에선 센서 데이터 분석에서 여러 신호 간의 관계를 파악하거나 이미지 및 음성 처리에서도 변수 간의 연관성을 분석할 때 활용된다. 공분산(Covariance)공분산에 대해 설명하기 전 분산(Variance)에 대해 간단히 짚고 넘어가야 한다. 분산이란 내가 가진 데이터가..

Data Science/ML & DL

정규화(Regularization과 Normalization의 차이)

머신러닝과 딥러닝에서 모델의 성능을 개선하고 일반화 능력을 높이기 위해 흔히 정규화 기법을 사용한다고 말한다. 여기서 정규화는 크게 Regularization과 Normalization으로 나뉘는데, 두 개념은 서로 다른 목적과 방식으로 적용된다. 하나의 명칭으로 해석되어 혼란스러울 때가 있어 이번에 정리해보려 한다. RegularizationRegularization은 모델의 복잡도를 제어하여 과적합(Overfitting)을 방지하는 데 사용된다. 모델의 가중치(Weight)에 제약 조건을 추가하여 학습된 모델이 새로운 데이터에 대해서도 잘 일반화할 수 있게 한다. 주요 특징가중치 규제과적합 방지모델 일반화 Regularization 방식에는 대표적으로 L1 정규화(Lasso)와 L2 정규화(Ridge..

Data Science/ML & DL

Distribution Shift

Distribution ShiftDistribution Shift는 훈련 데이터와 실제 예측에 사용할 데이터가 다른 분포에서 생성될 때 발생하는 상황을 나타낸다. 이는 조건부 확률로 표현이 가능한데, 사건 B가 일어나는 경우에 사건 A가 일어날 확률을 '사건 B에 대한 A의 조건부확률'이라 하고 \( P(A∣B) \)로 표기한다. Distribution Shift의 대표적인 유형은 다음과 같다. Covariate Shift: \( P(Y|X) \)는 그대로이지만 \( P(X) \)는 변하는 경우.예를 들어, 학습 데이터에서는 대부분 사실적인 이미지(photorealistic images)를 보았지만, 테스트 데이터에서는 대부분 만화 같은 이미지(cartoonish images)가 제공되는 상황이 해당된다..

AlienCoder
'Data Science' 카테고리의 글 목록 (3 Page)
loading