최근 수업 중 custom loss를 구현하는 과제에서 알게 된 trick인데 softmax 연산을 수행할 때 내부적으로 overflow나 underflow를 방지하기 위한 방법으로 이 방식을 사용한다고 한다. 이름에 나오듯 Log와 Summation 그리고 Exponential을 이용한 트릭이다. exp를 기존 방식대로 계산해보면 아래와 같이 overflow가 발생하게 된다. import numpy as npx = np.array([1000, 1000, 1000])print(np.exp(x))# [inf inf inf] x와 같은 logit(입력값)을 구해 softmax 연산을 위해 적용하였을 때 overflow가 발생하게 되고 이는 결국 loss가 발산하거나 backpropagation이 실패하는 결..
딥러닝이나 머신러닝 모델을 다루다 보면 Logit(로짓)과 Odds(오즈)라는 용어를 자주 접하게 된다. 이 두 개념은 특히 분류 문제에서 모델의 예측 결과를 해석하거나 후처리하는 데 중요한 역할을 한다. 이 글에서는 logits와 odds의 정의부터 계산 방식, 그리고 실전 활용 예까지 정리하였다. Odds(오즈)Odds(오즈)는 어떤 사건이 일어날 확률 대비 일어나지 않을 확률의 비율이다. 확률과는 다른 개념으로, 주로 통계학과 로지스틱 회귀에서 사용된다. 정의는 다음과 같다.$$ p(x) = wx+b $$$$ \text{odds} =\frac{p(x)}{1-p(x)} $$ 여기서 \( p \)는 특정 사건이 발생할 확률이다. 예제 1\( p = 0.8 \)이라면 odds는 다음과 같다.$$ \te..
음성정보처리를 수행할 때 Hidden Markov Model(HMM)에 대해 배우게 된다. 현재는 DNN 기반의 여러 방법들이 사용되고 있지만 레거시라고 그냥 넘어가기엔 큰 영향이 있었던 방법이므로 다시 정리하려한다. HMM을 살펴보기 전 Markov Model이 무엇인지 먼저 살펴보자. Markov ModelMarkov Model은 확률 기반 시퀀스 모델의 시작점으로 볼 수 있다. Markov Model은 시스템이 여러 상태를 가지고 있으며, 각 상태(State) 사이를 이동하는 확률인 전이 확률(Transition Probability)을 마르코프 성질로 정의한 확률 모델을 의미한다. 상태와 전이 확률을 다음과 같이 정의할 수 있다.상태(State): 시스템이 취할 수 있는 다양한 상태. 예) 날씨의..
Cross Entropy와 KL(Kullback–Leibler) Divergence는 머신 러닝과 딥러닝 분야뿐만 아니라 여러 분야에서 사용된다. 특히 분류 문제나 확률 분포를 다루는 모델에서 자주 등장하는 개념이다. 두 개념 모두 확률 분포 간의 차이(Divergence)를 측정하는 방법이라는 공통점이 있지만 목적과 수식 구조, 해석 관점에서는 차이가 있다. 위 주요 개념들에 대해 살펴보기 전에 정보량과 Entropy가 무엇인지 알고 넘어가자. 정보량(Information Quantity)정보량(Information Quantity)이라는 개념은 다소 추상적으로 느껴지지만, 실제로는 매우 논리적인 수식으로 설명이 가능하다. 정보량을 직관적 이해해 보자. 예를 들어, 어떤 사람이 대학교에서 수업에 지각했..
공분산(Covariance)과 상관 계수(Correlation Coefficient)는 통계학, 데이터 분석, 머신러닝, 금융, 경제학 등에서 널리 사용되고 있다. 대표적으로 데이터 분석 분야에선 변수 간의 관계를 분석하여 데이터의 패턴을 파악하는 데 활용된다. 뿐만 아니라 피처 선택(Feature Selection)에서 상관성이 높은 변수 중 일부를 제거하여 다중공선성 문제를 방지할 때 사용된다. 현재 관심 분야인 신호 처리 및 공학 분야에선 센서 데이터 분석에서 여러 신호 간의 관계를 파악하거나 이미지 및 음성 처리에서도 변수 간의 연관성을 분석할 때 활용된다. 공분산(Covariance)공분산에 대해 설명하기 전 분산(Variance)에 대해 간단히 짚고 넘어가야 한다. 분산이란 내가 가진 데이터가..
데이터가 가진 특성에 대해 판단할 때 대표적으로 평균(mean), 중앙값(median), 최빈값(mode) 등을 이용하여 추정할 수 있다. 각 방법은 아래와 같은 특징들이 있다.평균(mean)산술 평균, 기하 평균, 조화 평균 등의 방식이 있다.변수의 관찰값들을 모두 계산한 것이므로 대푯값으로 바람직하다.추상적인 의미를 가진다.특이값의 영향을 받는 단점이 있다.중앙값(median), 최빈값(mode)특이값의 영향을 받지 않는다.중앙값은 데이터를 크기순서로 정리해야 하는 불편함이 있다.최빈값은 데이터가 적거나 복잡하면 구할 수 없다. 이번 포스트에선 평균에 대해 더 자세히 알아보려 한다. 산술 평균(Arithmetic mean)산술 평균(Arithmetic mean)은 우리가 알고 있는 가장 보편적인 평균..