Data Science

Data Science/ML & DL

손실 함수(Loss Function)와 모델 유형 및 분야 별 적용 방법

손실 함수(Loss Function)손실 함수(Loss Function)는 모델의 예측 값과 실제 값 간의 차이를 측정하는 함수로, 모델이 얼마나 잘 학습하고 있는지를 평가하는 데 사용한다. 손실 함수는 모델이 예측한 값이 실제 값과 가까울수록 낮아지고, 차이가 클수록 커진다.  손실 함수는 분야에 따라 비용 함수(Cost Function), 에너지 함수(Energy Function) 등으로 다양하게 부르기도 한다. 손실 함수는 아래 두 가지의 주요 목적을 가지고 있다.모델 학습 방향 제시: 손실 함수 값을 최소화하는 방향으로 모델의 가중치와 편향을 조정한다. 이 과정을 통해 모델이 점점 더 정확한 예측을 할 수 있도록 학습하게 된다.성능 평가 지표: 모델 성능을 수치로 표현하여, 학습이 잘 진행되고 있..

Data Science/ML & DL

언어모델 평가 지표(Perplexity, PPL)

Perplexity(PPL)란 텍스트 생성(Text Generation) 언어 모델의 성능 평가지표 중 하나이다. Perplexity는 단어의 사전적 의미를 고려하여 설명하자면 모델이 예측을 할 때 얼마나 "당황"하거나 "혼란"을 겪는지를 측정하는 것이다. 이는 모델에 따른 테스트 세트의 엔트로피(또는 평균 로그 가능도, average log-likelihood)의 지수로 계산된다. 일반적으로 테스트 데이터셋이 충분히 신뢰할 만할 때 Perplexity 값이 낮을수록 언어 모델이 우수하다고 평가한다.  더 나아가 Perplexity는 자연어 모델에서 손실 함수로도 사용될 수 있다. 수학적으로는 Cross-Entropy Loss의 지수 함수와 같은 형태를 보인다. 수식은 아래와 같다. $$ P(W) = \..

Data Science/ML & DL

분류 성능 평가지표(Classification Evaluation Metrics) - Confusion Matrix, Accuracy, Precision, Recall, F1 score, ROC curve, AUC

분류 모델을 연구개발하여 완성된 결과물은 분류 성능 평가지표(Classification Evaluation Metrics)를 통해 얼마나 유의미한 모델인지에 대한 평가가 필요하다. 이를 위해 여러 가지 방법들이 있는데 Confusion Matrix, Accuracy, Precision , Recall , F1 score, ROC curve, AUC 등이 있다. 많은 종류가 있지만 모델이 사용되는 환경에 따라 어떤 지표를 이용하여 모델을 평가할지는 연구자의 몫이다. Confusion Matrix(혼동 행렬)Confusion Matrix란 모델이 예측한 값(Predicted Class)과 실제 값(Actual Class)을 비교하기 위한 표이다  True/False는 실제 값과 예측 값이 일치하는지에 대한 ..

Data Science/Statistics

[Python] 산술 평균, 기하 평균(Gmean), 조화 평균

데이터가 가진 특성에 대해 판단할 때 대표적으로 평균(mean), 중앙값(median), 최빈값(mode) 등을 이용하여 추정할 수 있다. 각 방법은 아래와 같은 특징들이 있다.- 평균(mean)산술 평균, 기하 평균, 조화 평균 등의 방식이 있다.변수의 관찰값들을 모두 계산한 것이므로 대푯값으로 바람직하다.추상적인 의미를 가진다.특이값의 영향을 받는 단점이 있다.- 중앙값(median), 최빈값(mode)특이값의 영향을 받지 않는다.중앙값은 데이터를 크기순서로 정리해야 하는 불편함이 있다.최빈값은 데이터가 적거나 복잡하면 구할 수 없다. 이번 포스트에선 평균에 대해 더 자세히 알아보려 한다. 산술 평균(Arithmetic mean)산술 평균(Arithmetic mean)은 우리가 알고 있는 가장 보편적..

Data Science/Statistics

상관관계(correlation)와 인과관계(causation)

상관관계(correlation)를 인과관계(causation)와 혼동하지 않도록 주의해야 한다. 변수 x는 변수 y를 예측할 때 유용할 수 있지만 이것이 x가 y의 원인이 된다는 의미는 아니기 때문이다. 또한 x가 y의 원인이 될 수 있지만 이와 동시에 y가 x의 원인이 될 수도 있다. 또는 둘 사이의 관계가 연구자가 상상했던 단순한 인과관계보다 더 복잡할 수도 있다. 실제 사례로 예를 들어보자. 2014년경 건보공단은 담배회사와 손해배상 청구 소송을 진행한 적이 있다. 내용은 담배회사의 담배 구조적 설계 결함과 담배회사의 불법행위로 3,465명의 흡연자가 폐암 등에 걸렸고, 공단은 이들에게 보험급여로 533억여 원을 지출했다고 주장한 것이었다. 공단 측 귀무가설과 대립가설을 아래와 같다. 편의상 간략하..

Data Science/Statistics

변인(Variables)의 종류

변인(Variables)이란 쉽게 말해 변수이다. 연구자가 실험을 설계할 때 여러 가지 상황이 존재하고 이에 따라 어떤 변수를 넣어 결과물을 도출하거나 연구 대상과의 상관관계를 찾아낼 수 있다. 즉, 실험 계획을 세울 때 어떻게 변인을 설정하고 관리하는지가 가장 중요하다고 볼 수 있다. 결과에 대한 방정식이 다음 수식 \( Y = \alpha X + \beta \)과 같을 때 변인이란 X와 Y에 해당한다. 하지만 우리는 변인을 설정하기 이전 측정을 해서 데이터를 확인해야 할 것이다. 변인에 값을 부여하는 과정이 측정이기 때문이다. CO2는 보통 400 이상의 값을 가지고 있고 미세먼지는 높아도 보통 100 이하의 수치를 띤다. 이 수치들이 의미하는 바는 측정 단위(unit)가 ppm, ppb인지 또는 \..

AlienCoder
'Data Science' 카테고리의 글 목록 (3 Page)
loading