Chapter 01. 데이터 기초체력 기르기
- 진도: 183p~
- 이해되지 않는 부분 표시 , 중요한 부분 표시
통계학 이해하기
왜 통계학을 알아야 할까?
데이터 과학의 전체 프로세스
- 데이터 수집 - 데이터 가공 - 탐색적 데이터 분석(데이터 시각화) - M/L 모델링 - 결과 해석 및 적용
머신러닝과 전통적 통계학의 차이
- 머신러닝의 주된 목적은 예측, 통계학의 주된 목적은 해석
- 머신러닝은 예측력이 얼마나 높은가에 집중한다.
- 따라서 분석 모형의 복잡성이 높으며, 과적합(overfitting) 해결에 집중한다.
- 전통적 통계학은 확률을 통해 가설을 검증하고 추정 모델을 통해 데이터를 해석하는 것에 목적을 둔다.
통계학의 정의와 기원
- 검정(test): 당시에 당연한 것으로 받아들여지는 통설인 귀무가설과 이에 대한 반대 예상인 대립가설을 통해 귀무가설이 유의하지 않다는 것을 증명하는 방법. 즉, 기존의 통설이나 가설이 유의미하지 않음을 증명하는 방법
- 상관관계 계수: 세상의 모든 사건은 독립적으로 일어나지만 서로 상관관계를 가지고 있으므로 상관관계를 맺는 두 변수 중에서 하나의 변수를 알면 다른 변수를 알 수 있다.
기술 통계와 추론 통계
- 기술 통계와 추론 통계는 데이터를 통해 얻고자 하는 목적이 무엇인가에 따라 구분된다.
기술(descriptive) 통계
- 문자 그대로 주어진 데이터의 특성을 사실에 근거하여 설명하고 묘사하는 것이다.
- 전체 데이터를 쉽고 직관적으로 파악할 수 있도록 설명해 주는 것이다.
- 기술 통계를 내는 것을 데이터 과학에서는 EDA라고 한다.
- 이를 통해 날 것의 데이터를 의사결정을 위한 정보로 탈바꿈하는 것이다.
추론(inferential) 통계
- 표본 집단으로부터 모집단의 특성을 추론하는 것이 목적이다.
- 한 학급의 통계치를 통해 학교 전체 학생의 통계치를 추정하는 것이다.
- 표본으로 구한 통곗값을 통해 모집단의 배터리 수명을 나타내는 모수 값이 얼마인지, 모수 값이 특정 구간 내에 존재할 확률이 얼마인지를 추정하는데 쓰인다.
표본의 특성을 분석 - 특성의 일반화 여부 판단 - 모집단의 특성으로 추정
This post is licensed under CC BY 4.0 by the author.