외부 저장소

회귀 분석에서 SST(Total Sum of Squares), SSR(Sum of Squares due to Regression), SSE(Sum of Squares Residual of Error)의 이해

2022.02.18

회귀 분석을 수행하며 자주 보이는 r2 score와 관련된 지표인 SST, SSE, SSR이 가지는 의미에 대해 살펴본다.SST는 총 제곱합, SSR은 회귀식 추정 값과 관측값의 평균 간 차이인 회귀 제곱합을 나타낸다. SSE는 잔차 제곱합이다. 경우에 따라 SSE와 SSR을 바꿔 표기하는 경우도 있는데 이때 식을 잘 봐야 한다. 수식에 사용되는 값은 아래와 같다.\( {y}_i \): 관측값\( \overline{y} \): 관측값의 평균\( \hat{y_i}\): 예측값 SST(Total Sum of Squares)우선 SST(Total Sum of Squares)는 관측값에서 관측값의 평균(혹은 추정치의 평균)을 뺀 결과의 총합인 총 제곱합이다. 이는 전체(Total)에 대한 변동성을 나타낸다. 그..

AI/Data Analysis

편차(deviation), 표준편차(Standard Deviation)에 대한 이해와 오차(error), 잔차(residual)의 차이점

2022.02.18

모든 데이터를 하나의 회귀식으로 설명하기는 힘들다. 또한 절대적인 회귀식을 도출하는 것도 쉽지 않다. 일반적으로 표본이란 것 자체가 대표성을 갖긴 하지만 모집단 그 자체가 될 순 없기 때문이다. 그러므로 관측값과 기댓값의 차이를 어느 정도 인정하고 진리에 가까울 것으로 추정되는 회귀식을 도출한다. 이때 차이를 의미하는 단어들이 있다. 편차(Deviation)와 표준편차(SD, Standard Deviation) 우선 편차(deviation)는 관측치가 평균으로 부터 떨어져 있는 정도, 즉 평균과 관측치와의 차이를 의미한다. 이 중 표준편차(SD, Standard Deviation)는 이러한 편차들의 평균값으로 평균으로부터 얼마나 떨어져 있는가에 대한 정보를 제공한다. 또한 표준편차를 통해 관측값들이 집합..

Computer Science/Software Engineering

[Design Pattern] SOLID (객체 지향 설계)란?

2022.02.18

컴퓨터 프로그래밍에서 SOLID란 객체 지향 프로그래밍 및 설계의 다섯 가지 기본 원칙이다. 프로그래머가 시간이 지나도 유지 보수와 확장이 쉬운 시스템을 만들고자 할 때 이 원칙들을 함께 적용할 수 있다. SOLID 원칙들은 소프트웨어 작업에서 프로그래머가 소스 코드가 읽기 쉽고 확장하기 쉽게 될 때까지 소프트웨어 소스 코드를 리팩터링하여 스파게티 코드, 에일리언 코드 또는 레거시코드가 되지 않도록 하기 위한 지침이다. 이렇게 설계된 소프트웨어는 재사용이 많아지고, 수정이 최소화되기 때문에 결국 유지 보수가 용이해진다. 물론 처음에 SOILD 원칙에 따라 소스코드를 작성하였어도 지속적으로 추가, 수정 등을 진행하며 리팩터링을 수행하여야 한다. SOILD는 아래 5가지의 원칙의 첫 글자를 따서 명명되었다...

AI/Data Analysis

여러가지 분포(정규 분포, Z-분포, t-분포, 카이제곱 분포, F-분포)와 t-검정, F-검정의 이해

2022.02.17

주어진 자료에 대한 판단을 위해 분포와 t-검정, ANOVA 등을 이용하여 데이터 분석을 수행한다. 결과를 유추하거나 적용할 때 개념과 수식을 명확히 하기 위해 작성하였다. 표준화분포에 대한 이해를 위해 표준화에 대한 이해가 필요하다. 표준화란 기준점을 동일하게 맞춰 조사자가 자료들을 쉽게 비교할 수 있도록 만드는 과정으로, 대표적인 표준화 분포인 표준정규분포(Z-분포)는 평균을 0, 표준편차를 1로 만든다.예를 들어 A가 영어 80점, 수학을 70점 맞았다고 했을 때 단순히 점수를 비교한다면 영어의 점수가 더 우위에 있다는 것을 알 수 있다. 하지만 반 평균 점수가 영어의 경우 90점, 수학의 경우 60점이라 한다면, 위의 판단이 틀렸다는 것을 알 수 있다.위의 판단의 오류를 방지하기 위해 각 과목 점..

AI/Data Analysis

[Python] 이상치(Outlier) 탐색을 위한 IQR(Interquartile Range)

2022.02.16

주요 개념이상치(Outlier)IQR(Interquartile Range) 이상치(Outlier)는 현재 가지고 있는 데이터 표본에 일관성 또는 연관성이 떨어지는 부분이다. 데이터 수집 장치 또는 수신부의 이상으로 인해 노이즈가 섞이는 경우 등 이런 이상치가 포함될 수 있다. 따라서 데이터를 정제하는 과정 중 이상치 제거는 필수적인 부분이다. EDA 과정 중 1차적으로 결측치와 이상치 등을 판단해 필터링을 수행해야 하는데, 이때 IQR(Interquartile Range)을 통해 이상치에 대한 판단을 할 수 있다. IQR은 분위(Quantile)라는 개념에 기초한다. 전체 데이터들을 오름차순으로 정렬하고, 정확히 4등분(25%, 50%, 75%, 100%)으로 나누는데 이 때 Q3(75%) - Q1(2..

AI/Data Analysis

[Python] 분산 분석을 위한 ANOVA(Analysis Of Variance)

2022.02.16

주요 개념귀무가설대립가설ANOVA(Analysis Of Variance, 분산 분석) ANOVA(Analysis Of Variance, 분산 분석)은 독립 변수가 하나이고 측정 집단이 3개 이상인 다수 집단의 평균(또는 산술 평균)에서 분산 값을 비교하는 데 사용되는 통계 공식이다. A 그림: ANOVA 분석 결과, 그룹 사이의 차이가 없음B 그림: ANOVA 분석 결과, 그룹 사이의 유의한 차이가 존재 예를 들어, 과학자들은 다양한 당뇨병 약물의 효과를 연구할 목적으로 약물 유형과 그에 따른 혈당 수치 사이의 관계를 설정하고 실험하여 조사했다 가정한다. 이때 표본 집단은 사람들의 집합이다. 샘플 모집단을 여러 그룹으로 나누고 각 그룹은 시험 기간 동안 특정 의약품을 투여받는다. 시험 기간이 끝나면 각..

전체 글

회귀 분석에서 SST(Total Sum of Squares), SSR(Sum of Squares due to Regression), SSE(Sum of Squares Residual of Error)의 이해

편차(deviation), 표준편차(Standard Deviation)에 대한 이해와 오차(error), 잔차(residual)의 차이점

[Design Pattern] SOLID (객체 지향 설계)란?

여러가지 분포(정규 분포, Z-분포, t-분포, 카이제곱 분포, F-분포)와 t-검정, F-검정의 이해

[Python] 이상치(Outlier) 탐색을 위한 IQR(Interquartile Range)

[Python] 분산 분석을 위한 ANOVA(Analysis Of Variance)

티스토리툴바