Post

Chapter 01. 데이터 기초체력 기르기

  • 진도: 183p~
  • 이해되지 않는 부분 표시 , 중요한 부분 표시

통계학 이해하기

왜 통계학을 알아야 할까?

데이터 과학의 전체 프로세스

  • 데이터 수집 - 데이터 가공 - 탐색적 데이터 분석(데이터 시각화) - M/L 모델링 - 결과 해석 및 적용

머신러닝과 전통적 통계학의 차이

  • 머신러닝의 주된 목적은 예측, 통계학의 주된 목적은 해석
  • 머신러닝은 예측력이 얼마나 높은가에 집중한다.
  • 따라서 분석 모형의 복잡성이 높으며, 과적합(overfitting) 해결에 집중한다.
  • 전통적 통계학은 확률을 통해 가설을 검증하고 추정 모델을 통해 데이터를 해석하는 것에 목적을 둔다.

통계학의 정의와 기원

  • 검정(test): 당시에 당연한 것으로 받아들여지는 통설인 귀무가설과 이에 대한 반대 예상인 대립가설을 통해 귀무가설이 유의하지 않다는 것을 증명하는 방법. 즉, 기존의 통설이나 가설이 유의미하지 않음을 증명하는 방법
  • 상관관계 계수: 세상의 모든 사건은 독립적으로 일어나지만 서로 상관관계를 가지고 있으므로 상관관계를 맺는 두 변수 중에서 하나의 변수를 알면 다른 변수를 알 수 있다.

기술 통계와 추론 통계

  • 기술 통계와 추론 통계는 데이터를 통해 얻고자 하는 목적이 무엇인가에 따라 구분된다.

기술(descriptive) 통계

  • 문자 그대로 주어진 데이터의 특성을 사실에 근거하여 설명하고 묘사하는 것이다.
  • 전체 데이터를 쉽고 직관적으로 파악할 수 있도록 설명해 주는 것이다.
  • 기술 통계를 내는 것을 데이터 과학에서는 EDA라고 한다.
  • 이를 통해 날 것의 데이터를 의사결정을 위한 정보로 탈바꿈하는 것이다.

추론(inferential) 통계

  • 표본 집단으로부터 모집단의 특성을 추론하는 것이 목적이다.
  • 한 학급의 통계치를 통해 학교 전체 학생의 통계치를 추정하는 것이다.
  • 표본으로 구한 통곗값을 통해 모집단의 배터리 수명을 나타내는 모수 값이 얼마인지, 모수 값이 특정 구간 내에 존재할 확률이 얼마인지를 추정하는데 쓰인다.

표본의 특성을 분석 - 특성의 일반화 여부 판단 - 모집단의 특성으로 추정

This post is licensed under CC BY 4.0 by the author.