Chapter 01. 데이터 기초체력 기르기

Posted Jul 19, 2024 Updated Dec 20, 2024

By thddlsgur0105

3 min read

Chapter 01. 데이터 기초체력 기르기

진도: 183p~
이해되지 않는 부분 표시 , 중요한 부분 표시

통계학 이해하기

왜 통계학을 알아야 할까?

데이터 과학의 전체 프로세스
데이터 수집 - 데이터 가공 - 탐색적 데이터 분석(데이터 시각화) - M/L 모델링 - 결과 해석 및 적용

머신러닝과 전통적 통계학의 차이

머신러닝의 주된 목적은 예측, 통계학의 주된 목적은 해석
머신러닝은 예측력이 얼마나 높은가에 집중한다.
따라서 분석 모형의 복잡성이 높으며, 과적합(overfitting) 해결에 집중한다.
전통적 통계학은 확률을 통해 가설을 검증하고 추정 모델을 통해 데이터를 해석하는 것에 목적을 둔다.

통계학의 정의와 기원

검정(test): 당시에 당연한 것으로 받아들여지는 통설인 귀무가설과 이에 대한 반대 예상인 대립가설을 통해 귀무가설이 유의하지 않다는 것을 증명하는 방법. 즉, 기존의 통설이나 가설이 유의미하지 않음을 증명하는 방법
상관관계 계수: 세상의 모든 사건은 독립적으로 일어나지만 서로 상관관계를 가지고 있으므로 상관관계를 맺는 두 변수 중에서 하나의 변수를 알면 다른 변수를 알 수 있다.

기술 통계와 추론 통계

기술 통계와 추론 통계는 데이터를 통해 얻고자 하는 목적이 무엇인가에 따라 구분된다.

기술(descriptive) 통계

문자 그대로 주어진 데이터의 특성을 사실에 근거하여 설명하고 묘사하는 것이다.
전체 데이터를 쉽고 직관적으로 파악할 수 있도록 설명해 주는 것이다.
기술 통계를 내는 것을 데이터 과학에서는 EDA라고 한다.
이를 통해 날 것의 데이터를 의사결정을 위한 정보로 탈바꿈하는 것이다.

추론(inferential) 통계

표본 집단으로부터 모집단의 특성을 추론하는 것이 목적이다.
한 학급의 통계치를 통해 학교 전체 학생의 통계치를 추정하는 것이다.
표본으로 구한 통곗값을 통해 모집단의 배터리 수명을 나타내는 모수 값이 얼마인지, 모수 값이 특정 구간 내에 존재할 확률이 얼마인지를 추정하는데 쓰인다.

표본의 특성을 분석 - 특성의 일반화 여부 판단 - 모집단의 특성으로 추정

This post is licensed under CC BY 4.0 by the author.