머신러닝과 딥러닝에서 모델의 성능을 개선하고 일반화 능력을 높이기 위해 흔히 정규화 기법을 사용한다고 말한다. 여기서 정규화는 크게 Regularization과 Normalization으로 나뉘는데, 두 개념은 서로 다른 목적과 방식으로 적용된다. 하나의 명칭으로 해석되어 혼란스러울 때가 있어 이번에 정리해보려 한다. RegularizationRegularization은 모델의 복잡도를 제어하여 과적합(Overfitting)을 방지하는 데 사용된다. 모델의 가중치(Weight)에 제약 조건을 추가하여 학습된 모델이 새로운 데이터에 대해서도 잘 일반화할 수 있게 한다. 주요 특징가중치 규제과적합 방지모델 일반화 Regularization 방식에는 대표적으로 L1 정규화(Lasso)와 L2 정규화(Ridge..
Distribution ShiftDistribution Shift는 훈련 데이터와 실제 예측에 사용할 데이터가 다른 분포에서 생성될 때 발생하는 상황을 나타낸다. 이는 조건부 확률로 표현이 가능한데, 사건 B가 일어나는 경우에 사건 A가 일어날 확률을 '사건 B에 대한 A의 조건부확률'이라 하고 \( P(A∣B) \)로 표기한다. Distribution Shift의 대표적인 유형은 다음과 같다. Covariate Shift: \( P(Y|X) \)는 그대로이지만 \( P(X) \)는 변하는 경우.예를 들어, 학습 데이터에서는 대부분 사실적인 이미지(photorealistic images)를 보았지만, 테스트 데이터에서는 대부분 만화 같은 이미지(cartoonish images)가 제공되는 상황이 해당된다..
Cross EntropyCross Entropy는 확률 분포 간의 차이를 측정하는 지표로, 분류 문제에서 모델의 예측 성능을 평가하는 데 자주 사용된다. 이는 손실 함수의 한 종류이며, 손실 함수의 목표는 모델이 예측한 분포와 실제 분포 사이의 차이를 최소화하는 것이다. Cross Entropy를 이해하기 전 먼저 짚고 넘어가야 하는 개념이 있는데 바로 놀람도, 기대값, 엔트로피 이 세 가지이다. 먼저 놀람도에 대한 예를 들어보자.검은색 종이 999개와 흰색 종이가 1개 들어있는 상자가 있다고 가정하자. 이 상자에서 우리가 검은색 종이를 뽑았다면 우리는 당연하다고 생각할 것이다. 확률(\( p(x) \))이 훨씬 높기 때문이다. 하지만 흰색 종이가 나온다면 우리는 놀라게 될 것이다. 다시 말하면 이 놀람..
Local Minima Problem(지역 최소 or 지역 극소 문제)는 최적화 과정에서 손실 함수의 Global Minima에 도달한 것이 아니지만 현재 위치 주변에서 더 나아가기도 어려운 위치를 의미한다. 손실 함수가 매우 복잡하고 비선형일 때, 특히 여러 층을 가진 심층 신경망에서는 손실 함수의 표면에 여러 지역 최소값이 형성될 수 있다. 모델이 이 지점에 도달하면 기울기가 거의 0에 가까워져서 학습이 정체되거나 더 나은 최적점을 찾기 어렵게 된다.발생 원인은 다음과 같다.비선형 구조: 심층 신경망은 비선형 활성화 함수를 사용하기 때문에 손실 함수가 복잡해지고, 그 결과 지역 최소값 문제가 발생할 수 있다.고차원 매개변수 공간: 신경망이 깊어질수록 매개변수 공간이 고차원이 되며, 이는 손실 함수 표..
기울기 소실(Gradient Vanishing)과 기울기 폭주(Gradient Exploding)는 딥러닝 모델의 학습 과정에서 자주 발생하는 문제로, 특히 역전파 과정에서 기울기가 지나치게 작아지거나 커지는 현상을 의미한다. 이러한 문제들은 주로 깊은 신경망(Deep Neural Networks)이나 순환 신경망(RNN)에서 발생한다. 이 두 가지 현상은 가중치 업데이트가 효과적으로 이루어지지 않아 학습 속도를 늦추거나 학습이 제대로 이루어지지 않게 만드는 원인이 된다. 이러한 이유로 결국 모델이 최적해에 도달하지 못하게 만든다. 기울기 소실(Gradient Vanishing)기울기 소실 (Gradient Vanishing)은 역전파(Backpropagation) 과정에서 기울기가 점점 작아져, 초기..
딥러닝 모델 학습을 진행하다 보면 가장 자주 마주하게 되는 문제가 바로 과적합(Overfitting), 경사 소실(Gradient Vanishing)과 같은 문제이다. 이번엔 과적합(Overfitting)과 이와 반대의 개념인 과소적합(Underfitting)에 대해 발생 이유와 해결 방안에 대해 정리하고자 한다. 과적합(Overfitting)과적합(Overfitting)은 모델이 학습 데이터에 너무 잘 맞추려고 하여, 데이터의 노이즈나 불필요한 패턴까지 학습하게 되는 상황이다. 이로 인해 모델이 학습 데이터에는 높은 성능을 보이지만, 새로운 데이터(테스트 데이터)에는 일반화되지 않아 성능이 떨어진다. 발생 원인을 정리해보면 다음과 같다.모델 복잡도 과다: 모델의 파라미터 수가 너무 많아 학습 데이터의..