반응형
지역 최소값(Local Minima)은 최적화 과정에서 손실 함수의 Global Minima에 도달한 것이 아니지만 현재 위치 주변에서 더 나아가기도 어려운 위치를 의미한다. 손실 함수가 매우 복잡하고 비선형일 때, 특히 여러 층을 가진 심층 신경망에서는 손실 함수의 표면에 여러 지역 최소값이 형성될 수 있다. 모델이 이 지점에 도달하면 기울기가 거의 0에 가까워져서 학습이 정체되거나 더 나은 최적점을 찾기 어렵게 된다.
발생 원인은 다음과 같다.
- 비선형 구조
: 심층 신경망은 비선형 활성화 함수를 사용하기 때문에 손실 함수가 복잡해지고, 그 결과 지역 최소값 문제가 발생할 수 있다. - 고차원 매개변수 공간
: 신경망이 깊어질수록 매개변수 공간이 고차원이 되며, 이는 손실 함수 표면에 더 많은 구덩이와 산등성이를 형성하여 지역 최소값 문제가 생기기 쉽다. - 신경망 구조 및 매개변수 초기화
: 깊은 신경망에서 매개변수를 초기화할 때, 가중치의 분산을 1로 설정하면 최적화 과정에서 모델이 금방 Gradient Vanishing과 Local Minima에 빠질 수 있다. 이는 가중치 초기화의 분산이 네트워크 학습에 중요한 영향을 미치기 때문이다. - 기울기 소실(Gradient Vanishing)
: 깊은 층으로 갈수록 기울기가 점차 0에 가까워지는 현상으로 손실 함수가 완만하게 평평한 지역에 도달하여 모델이 학습이 거의 진행되지 않게 되어 지역 최소값 문제가 발생할 수 있다.
해결 방안은 아래와 같다.
- 옵티마이저 변경
: Adam, RMSprop과 같은 옵티마이저는 적응형 학습률을 제공하여 모델이 지역 최소 문제에서 빠르게 벗어날 수 있게 돕는다. 이들 옵티마이저는 손실 함수의 복잡한 경관에서 효과적으로 최적화를 수행한다. - 학습률 조정
: 학습률을 점진적으로 낮추는 학습률 감소 스케줄링(Learning Rate Scheduling)을 통해, 초기에는 넓은 지역을 탐색하고 학습이 진행될수록 섬세하게 최적화할 수 있다. 이를 통해 지역 최소값에 빠지는 것을 방지할 수 있다. - 드롭아웃(Dropout)
: 드롭아웃과 같은 정규화 기법을 사용하면 모델이 더 일반화된 특성을 학습하게 되므로, 특정한 손실 지형에 과도하게 적응하지 않고 최적화할 수 있다. - 정규화(Regularization)
: 드롭아웃(Dropout)과 배치 정규화(Batch Normalization) 같은 기법은 신경망이 불필요한 특성을 과하게 학습하는 것을 방지해 주며, 기울기 소실 문제를 줄여 준다. 배치 정규화는 특히 각 층의 입력 분포를 조정하여 기울기 소실과 지역 최소 문제의 위험을 줄인다. - 초기 가중치의 분산과 Bias 초기값을 조절
: 초기 가중치의 분산을 조절하기 위해 Xavier 초기화나 He 초기화와 같은 기법을 사용하면 초기 단계에서 네트워크가 입력 노드 수에 기반하여 분산을 자동으로 조정하여 손실 함수의 비대칭적인 부분에 갇히지 않도록 한다. 또한 bias의 초기값을 0이 아닌 값으로 설정하여 초기 단계에서 학습의 정체를 방지하고 지역 최소값에 빠질 위험을 줄일 수 있다.
이러한 방법들은 지역 최소값 문제가 발생하지 않도록 예방하여, 모델이 전역 최적값을 향해 더 효과적으로 학습할 수 있도록 돕는다.
관련 포스트
2024.10.26 - [Data Science/ML & DL] - 손실 함수(Loss Function)와 모델 유형 및 분야 별 적용 방법
2024.10.28 - [Data Science/ML & DL] - 옵티마이저(Optimizer)와 학습률(Learning Rate)
2024.11.02 - [Data Science/ML & DL] - 과적합(Overfitting)과 과소적합(Underfitting)
2024.11.02 - [Data Science/ML & DL] - 기울기 소실(Gradient Vanishing)과 기울기 폭주(Gradient Exploding)
참고 자료
https://wngaw.github.io/linear-regression/
반응형