Data Science

Data Science/ML & DL

옵티마이저(Optimizer)와 학습률(Learning Rate)

Optimizer 위 그림은 Optimizer를 설명하면 항상 빼놓지 않고 등장한다. 개인적으로 발전과정과 각 Optimizer의 특징이 간결하게 정리되어 있어서 완벽한 시각화 자료라고 생각한다. 옵티마이저(Optimizer)란 가중치를 갱신(Update) 하기 위한 방법이다.  딥러닝 모델은 순전파(Forward Propagation) 과정에서 활성화 함수(Activation Function)를 거쳐 신경망의 가중치를 구한 후 최종 결과값과 실제 정답의 차이를 손실 함수(Loss Function)를 이용하여 계산한 한다. 그 후 역전파(Back Propagation) 과정을 수행하는데 이 때 가중치를 어떻게 업데이트할지 결정하기 위해 옵티마이저(Optimizer)가 사용된다. 이 과정을 반복하며 최적의..

Data Science/ML & DL

Softmax에 대한 고찰

Softmax와 볼츠만 분포(Boltzmann Distribution)Softmax는 최근 딥러닝 모델 연구에서 아주 중요한 역할을 한다. 대표적으로 GPT의 근간이 되는 Transformer 모델과 Attention 메커니즘에서 매우 중요한 역할을 수행하고 있다. Softmax는 주로 다중 클래스 분류 문제에서 사용되며, 입력된 로짓(logits)을 기반으로 각 클래스에 대한 확률을 계산하는 데 활용된다. 여러 카테고리 간의 확률 분포를 부드럽게 만들어 주는 역할을 한다. 이 글에서는 Softmax의 특징과 이를 개선하기 위한 다양한 기법에 대해 정리해보려 한다. Softmax는 볼츠만 분포(Boltzmann Distribution)에 영감을 받아 고안되었다.  여기서 볼츠만 분포란 열역학적 시스템의 ..

Data Science/ML & DL

활성화 함수(Activation Function) - Sigmoid, Softmax, Tanh, ReLU, Leaky ReLU

활성화 함수(Activation Function)란? 활성화 함수(Activation Function)는 딥러닝의 가중치를 구하기 위해 사용되는 비선형 함수(Nonlinear Function)이다. 이 활성화 함수는 딥러닝 네트워크에서 노드에 입력된 값들을 비선형 함수에 통과시킨 후 다음 레이어로 전달한다. 일단 가장 단순하게 대표적인 활성화 함수들의 역할을 정리해 보자면 다음과 같다.Sigmoid: 이진 분류 모델의 마지막 출력 계층(Output Layer)에 사용Softmax: 다중 분류 모델의 마지막 출력 계층(Output Layer)에 사용ReLU: 은닉층(Hidden Layer)에 주로 사용 왜 이런 비선형 함수들을 활성화 함수로 사용할까? 만약 선형 함수를 활성화 함수로 사용하게 된다면 간단한..

Data Science/ML & DL

손실 함수(Loss Function)와 모델 유형 및 분야 별 적용 방법

손실 함수(Loss Function)손실 함수(Loss Function)는 모델의 예측 값과 실제 값 간의 차이를 측정하는 함수로, 모델이 얼마나 잘 학습하고 있는지를 평가하는 데 사용한다. 손실 함수는 모델이 예측한 값이 실제 값과 가까울수록 낮아지고, 차이가 클수록 커진다.  손실 함수는 분야에 따라 비용 함수(Cost Function), 에너지 함수(Energy Function) 등으로 다양하게 부르기도 한다. 손실 함수는 아래 두 가지의 주요 목적을 가지고 있다.모델 학습 방향 제시: 손실 함수 값을 최소화하는 방향으로 모델의 가중치와 편향을 조정한다. 이 과정을 통해 모델이 점점 더 정확한 예측을 할 수 있도록 학습하게 된다.성능 평가 지표: 모델 성능을 수치로 표현하여, 학습이 잘 진행되고 있..

Data Science/ML & DL

언어모델 평가 지표(Perplexity, PPL)

Perplexity(PPL)란 텍스트 생성(Text Generation) 언어 모델의 성능 평가지표 중 하나이다. Perplexity는 단어의 사전적 의미를 고려하여 설명하자면 모델이 예측을 할 때 얼마나 "당황"하거나 "혼란"을 겪는지를 측정하는 것이다. 이는 모델에 따른 테스트 세트의 엔트로피(또는 평균 로그 가능도, average log-likelihood)의 지수로 계산된다. 일반적으로 테스트 데이터셋이 충분히 신뢰할 만할 때 Perplexity 값이 낮을수록 언어 모델이 우수하다고 평가한다.  더 나아가 Perplexity는 자연어 모델에서 손실 함수로도 사용될 수 있다. 수학적으로는 Cross-Entropy Loss의 지수 함수와 같은 형태를 보인다. 수식은 아래와 같다. $$ P(W) = \..

Data Science/ML & DL

분류 성능 평가지표(Classification Evaluation Metrics) - Confusion Matrix, Accuracy, Precision, Recall, F1 score, ROC curve, AUC

분류 모델을 연구개발하여 완성된 결과물은 분류 성능 평가지표(Classification Evaluation Metrics)를 통해 얼마나 유의미한 모델인지에 대한 평가가 필요하다. 이를 위해 여러 가지 방법들이 있는데 Confusion Matrix, Accuracy, Precision , Recall , F1 score, ROC curve, AUC 등이 있다. 많은 종류가 있지만 모델이 사용되는 환경에 따라 어떤 지표를 이용하여 모델을 평가할지는 연구자의 몫이다. Confusion Matrix(혼동 행렬)Confusion Matrix란 모델이 예측한 값(Predicted Class)과 실제 값(Actual Class)을 비교하기 위한 표이다  True/False는 실제 값과 예측 값이 일치하는지에 대한 ..

AlienCoder
'Data Science' 카테고리의 글 목록 (3 Page)
loading