Data Science

Data Science/Statistics

[Python] 산술 평균, 기하 평균(Gmean), 조화 평균

데이터가 가진 특성에 대해 판단할 때 대표적으로 평균(mean), 중앙값(median), 최빈값(mode) 등을 이용하여 추정할 수 있다. 각 방법은 아래와 같은 특징들이 있다. - 평균(mean) 산술 평균, 기하 평균, 조화 평균 등의 방식이 있다. 변수의 관찰값들을 모두 계산한 것이므로 대푯값으로 바람직하다. 추상적인 의미를 가진다. 특이값의 영향을 받는 단점이 있다. - 중앙값(median), 최빈값(mode) 특이값의 영향을 받지 않는다. 중앙값은 데이터를 크기순서로 정리해야 하는 불편함이 있다. 최빈값은 데이터가 적거나 복잡하면 구할 수 없다. 이번 포스트에선 평균에 대해 더 자세히 알아보려 한다. 산술 평균(Arithmetic mean) 산술 평균(Arithmetic mean)은 우리가 알고..

Data Science/Statistics

상관관계(correlation)와 인과관계(causation)

상관관계(correlation)를 인과관계(causation)와 혼동하지 않도록 주의해야 한다. 변수 x는 변수 y를 예측할 때 유용할 수 있지만 이것이 x가 y의 원인이 된다는 의미는 아니기 때문이다. 또한 x가 y의 원인이 될 수 있지만 이와 동시에 y가 x의 원인이 될 수도 있다. 또는 둘 사이의 관계가 연구자가 상상했던 단순한 인과관계보다 더 복잡할 수도 있다. 실제 사례로 예를 들어보자. 2014년경 건보공단은 담배회사와 손해배상 청구 소송을 진행한 적이 있다. 내용은 담배회사의 담배 구조적 설계 결함과 담배회사의 불법행위로 3,465명의 흡연자가 폐암 등에 걸렸고, 공단은 이들에게 보험급여로 533억여 원을 지출했다고 주장한 것이었다. 공단 측 귀무가설과 대립가설을 아래와 같다. 편의상 간략하..

Data Science/Statistics

변인(Variables)의 종류

변인(Variables)이란 쉽게 말해 변수이다. 연구자가 실험을 설계할 때 여러 가지 상황이 존재하고 이에 따라 어떤 변수를 넣어 결과물을 도출하거나 연구 대상과의 상관관계를 찾아낼 수 있다. 즉, 실험 계획을 세울 때 어떻게 변인을 설정하고 관리하는지가 가장 중요하다고 볼 수 있다. 결과에 대한 방정식이 다음 수식 \( Y = \alpha X + \beta \)과 같을 때 변인이란 X와 Y에 해당한다. 하지만 우리는 변인을 설정하기 이전 측정을 해서 데이터를 확인해야 할 것이다. 변인에 값을 부여하는 과정이 측정이기 때문이다. CO2는 보통 400 이상의 값을 가지고 있고 미세먼지는 높아도 보통 100 이하의 수치를 띤다. 이 수치들이 의미하는 바는 측정 단위(unit)가 ppm, ppb인지 또는 \..

Data Science/Data Mining

정형(Structured), 비정형(Unstructured), 반정형(Semi-Structured) 데이터

현재 빅데이터는 우리 삶에 깊이 녹아들게 되었고 이와 함께 데이터가 무엇인지에 대한 정의와 이해의 중요성이 더 크게 대두되고 있다. 이는 과거 해석의 어려움으로 인해 방대한 양의 비정형 데이터(Unstructured data)가 제대로 활용되지 못하던 상황이 새로운 기법과 방법의 등장으로 까다로웠던 비정형 데이터를 읽고, 저장하고, 분석할 수 있게 되었기 때문이다. 따라서 우리는 새로운 기술들을 통해 이전보다 비정형 데이터를 더 쉽게 이해할 수 있을 뿐만 아니라 분석을 통해 인사이트를 도출해낼 수 있다. IDC에 따르면, 2024년까지 전 세계에서 생성, 캡처, 복사 및 소비되는 데이터의 총량은 매년 149 제타바이트를 넘어설 것이며 그중 상당수는 비정형 데이터가 될 것이라고 한다. 우리는 비정형 데이터..

Data Science/Statistics

[Python] 주성분 분석(Principle Component Analysis, PCA)과 특이값 분해(Singular Value Decomposition, SVD)

주성분 분석(Principle Component Analysis, PCA)주성분 분석(Principle Component Analysis, PCA)이란 차원 축소 알고리즘 중 하나이다. 일반적으로 머신러닝을 이용해 문제 해결을 시도할 때 train sample은 보통 수천 또는 수백만 개의 특성(feature)을 가지고 있다. 이렇게 특성들이 많으면 이 중 어떤 특성이 유의미한 요소인지 찾기 힘들고 동시에 많은 불필요한 데이터로 인해 garbage in garbage out을 경험하게 된다. 뿐만 아니라 학습 시간이 길어져 결국 연구 결과 확인까지 오래 걸릴 수 있다. 따라서 이런 문제를 야기하는 것을 차원의 저주(curse of dimensionality)라고 한다. 다시 말해 결국 차원을 축소하면 이..

Data Science/Computer Vision

[OpenCV] [Python] 이미지 크기 변환(Image Resize)

서버를 운용하거나 영상 처리를 수행할 때 저장공간 또는 수행 속도를 위해 이미지 크기를 변환하기도 한다. 또는 이미지 데이터를 학습 데이터로 만드는 전처리(Preprocessing) 과정이나 학습된 모델에 정해진 사이즈에 맞추기 위해서도 이미지 크기를 변환할 수 있다. 우리는 평소 이미지 파일을 켜놓고 늘렸다 줄였다 손쉽게 이미지 모서리를 드래그하여 변형을 시킬 수 있었다. 이 과정을 위해 예를 들어본다. 우선 새 옷을 구매하였다고 가정해보자. 만약 새로 산 바지가 좀 작다고 양 끝을 잡고 당겨 제멋대로 늘려버리면 이 바지의 형태가 제대로 잡혀있을까? 그렇지 않을 것이다. 또는 큰 스웨터를 세탁기에 그대로 돌려버리면 옷이 작아질 것이다. 즉, 원본 상태에서 변형이 가해졌고 이로 인해 원형의 모습을 잃게 ..

alien_coder
'Data Science' 카테고리의 글 목록