Cross Entropy와 KL(Kullback–Leibler) Divergence는 머신 러닝과 딥러닝 분야뿐만 아니라 여러 분야에서 사용된다. 특히 분류 문제나 확률 분포를 다루는 모델에서 자주 등장하는 개념이다. 두 개념 모두 확률 분포 간의 차이(Divergence)를 측정하는 방법이라는 공통점이 있지만 목적과 수식 구조, 해석 관점에서는 차이가 있다. 위 주요 개념들에 대해 살펴보기 전에 정보량과 Entropy가 무엇인지 알고 넘어가자. 정보량(Information Quantity)정보량(Information Quantity)이라는 개념은 다소 추상적으로 느껴지지만, 실제로는 매우 논리적인 수식으로 설명이 가능하다. 정보량을 직관적 이해해 보자. 예를 들어, 어떤 사람이 대학교에서 수업에 지각했..
공분산(Covariance)과 상관 계수(Correlation Coefficient)는 통계학, 데이터 분석, 머신러닝, 금융, 경제학 등에서 널리 사용되고 있다. 대표적으로 데이터 분석 분야에선 변수 간의 관계를 분석하여 데이터의 패턴을 파악하는 데 활용된다. 뿐만 아니라 피처 선택(Feature Selection)에서 상관성이 높은 변수 중 일부를 제거하여 다중공선성 문제를 방지할 때 사용된다. 현재 관심 분야인 신호 처리 및 공학 분야에선 센서 데이터 분석에서 여러 신호 간의 관계를 파악하거나 이미지 및 음성 처리에서도 변수 간의 연관성을 분석할 때 활용된다. 공분산(Covariance)공분산에 대해 설명하기 전 분산(Variance)에 대해 간단히 짚고 넘어가야 한다. 분산이란 내가 가진 데이터가..
데이터가 가진 특성에 대해 판단할 때 대표적으로 평균(mean), 중앙값(median), 최빈값(mode) 등을 이용하여 추정할 수 있다. 각 방법은 아래와 같은 특징들이 있다.평균(mean)산술 평균, 기하 평균, 조화 평균 등의 방식이 있다.변수의 관찰값들을 모두 계산한 것이므로 대푯값으로 바람직하다.추상적인 의미를 가진다.특이값의 영향을 받는 단점이 있다.중앙값(median), 최빈값(mode)특이값의 영향을 받지 않는다.중앙값은 데이터를 크기순서로 정리해야 하는 불편함이 있다.최빈값은 데이터가 적거나 복잡하면 구할 수 없다. 이번 포스트에선 평균에 대해 더 자세히 알아보려 한다. 산술 평균(Arithmetic mean)산술 평균(Arithmetic mean)은 우리가 알고 있는 가장 보편적인 평균..
상관관계(Correlation)를 인과관계(Causation)와 혼동하지 않도록 주의해야 한다. 변수 x는 변수 y를 예측할 때 유용할 수 있지만 이것이 x가 y의 원인이 된다는 의미는 아니기 때문이다. 또한 x가 y의 원인이 될 수 있지만 이와 동시에 y가 x의 원인이 될 수도 있다. 또는 둘 사이의 관계가 연구자가 상상했던 단순한 인과관계보다 더 복잡할 수도 있다. 실제 사례로 예를 들어보자. 2014년경 건보공단은 담배회사와 손해배상 청구 소송을 진행한 적이 있다. 내용은 담배회사의 담배 구조적 설계 결함과 담배회사의 불법행위로 3,465명의 흡연자가 폐암 등에 걸렸고, 공단은 이들에게 보험급여로 533억여 원을 지출했다고 주장한 것이었다. 공단 측 귀무가설과 대립가설을 아래와 같다. 편의상 간략하..
변인(Variables)이란 쉽게 말해 변수이다. 연구자가 실험을 설계할 때 여러 가지 상황이 존재하고 이에 따라 어떤 변수를 넣어 결과물을 도출하거나 연구 대상과의 상관관계를 찾아낼 수 있다. 즉, 실험 계획을 세울 때 어떻게 변인을 설정하고 관리하는지가 가장 중요하다고 볼 수 있다. 결과에 대한 방정식이 다음 수식 \( Y = \alpha X + \beta \)과 같을 때 변인이란 X와 Y에 해당한다. 하지만 우리는 변인을 설정하기 이전 측정을 해서 데이터를 확인해야 할 것이다. 변인에 값을 부여하는 과정이 측정이기 때문이다. CO2는 보통 400 이상의 값을 가지고 있고 미세먼지는 높아도 보통 100 이하의 수치를 띤다. 이 수치들이 의미하는 바는 측정 단위(unit)가 ppm, ppb인지 또는 \..
현재 빅데이터는 우리 삶에 깊이 녹아들게 되었고 이와 함께 데이터가 무엇인지에 대한 정의와 이해의 중요성이 더 크게 대두되고 있다. 이는 과거 해석의 어려움으로 인해 방대한 양의 비정형 데이터(Unstructured data)가 제대로 활용되지 못하던 상황이 새로운 기법과 방법의 등장으로 까다로웠던 비정형 데이터를 읽고, 저장하고, 분석할 수 있게 되었기 때문이다. 따라서 우리는 새로운 기술들을 통해 이전보다 비정형 데이터를 더 쉽게 이해할 수 있을 뿐만 아니라 분석을 통해 인사이트를 도출해낼 수 있다.IDC에 따르면, 2024년까지 전 세계에서 생성, 캡처, 복사 및 소비되는 데이터의 총량은 매년 149 제타바이트를 넘어설 것이며 그중 상당수는 비정형 데이터가 될 것이라고 한다. 우리는 비정형 데이터 ..