Post

9.18 Chapter 01

통계학이란?

  • 대상을 관찰하고 측정함으로써, 그 대상의 정보, 즉 데이터를 얻을 수 있습니다.

  • 데이터는 수치의 모음으로, 막연히 바라보기만 해서는 무엇인지 제대로 알 수 없습니다.

데이터 분석의 목적

  • 통계학을 배우는 첫 단계로, 데이터 분석의 목적은 무엇인가?부터 생각해 봅시다.

  • 데이터 분석의 목적은 크게 다음 3가지로 들 수 있습니다.
    1. 데이터를 요약하는 것
    2. 대상을 설명하는 것
    3. 새로 얻을 데이터를 예측하는 것
  • 데이터 요약: 아무런 처리도 하지 않은 원자료는 수치의 나열일 뿐이므로, 바라보기만 해서는 경향을 파악할 수 없습니다. 따라서 데이터를 요약하고 정리할 방법이 필요합니다.

  • 대상 설명: 대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해하는 것입니다.

  • 일반적으로 데이터 분석에서 말하는 관계성에는 인과관계상관관계가 있습니다.

  • 인과관계란 2가지 중 하나를 변화시키면, 다른 하나도 바꿀 수 있는 관계를 말합니다.

  • 상관관계란 한 쪽이 크면 다른 한 쪽도 큰 관계를 말합니다.

  • 미지의 데이터 예측: 이미 얻은 데이터를 기반으로 이후 새롭게 얻을 데이터를 예측하는 것을 말합니다.

통계학의 역할

  • 데이터 분석에서 통계학의 중요한 역할은, 퍼짐이 있는 데이터에 대해 설명이나 예측을 하는 것입니다.

  • 확률을 사용하자: 통계학은 데이터 퍼짐이나 불확실성에 대처하는 방법을 제공하는데, 그 근거가 되는 것이 확률론입니다.

통계학의 전체 모습

  • 수집한 데이터를 정리하고 요약하는 방법을, 기술통계라고 합니다.

  • 이와는 달리 수집한 데이터로부터 데이터의 발생원을 추정하는 방법을, 추론통계라고 합니다.

  • 데이터에서 가정한 확률 모형의 성질을 추정하는 방법인 통계적 추론이 있습니다.

  • 세운 가설과 얻은 데이터가 얼마나 들어맞는지 평가하여, 가설을 채택할 것인가를 판단하는 방법인 가설 검정이 있습니다.

모집단과 표본

데이터 분석의 목적과 알고자 하는 대상

  • ‘~를 예측한다’와 같이 구체적인 데이터 분석 목적을 정하는 것이 중요한 첫 단계입니다.

  • 데이터 분석의 목적을 정했다면, 다음으로는 알고자 하는 대상을 명확히 하는 것이 중요합니다.

모집단

  • 통계학에서는 알고자 하는 대상 전체를 모집단이라 합니다.
  • 앞으로 많은 통계분석 방법을 살펴볼 터지만, 어떤 방법을 사용하든 간에 지금 알고자 하는 대상은 무엇인지 그리고 무엇을 모집단으로 설정할 것인지의 문제에는 항상 주의를 기울여야 합니다.

  • 모집단에 포함된 요소의 수를 모집단 크기라고 합니다.
  • 이는 유한모집단과 무한모집단으로 나뉩니다.

모집단의 성질을 알다

  • 모집단의 성질을 알 수 있다면 대상을 설명하거나 이해할 수 있고, 미지의 데이터를 예측할 수도 있게 됩니다.

  • 모집단의 성질을 아는 방법의 하나로, 모집단에 포함된 모든 요소를 조사하는 전수조사가 있습니다.

  • 그러나 전수조사를 실시하려면 비용이나 시간 면에서 부담이 막대하여 실현 불가능할 때가 대부분입니다.

  • 모집단의 일부를 분석하여 모집단 전체의 성질을 추정하는 추론통계라는 분야가 있습니다.

  • 모집단의 일부를 표본이라 하며, 모집단에서 표본을 뽑는 것을 표본추출이라 합니다. 또한 표본을 이용해 모집단의 성질을 조사하는 것을 표본조사라고 합니다.

  • 통계학에서 표본에 포함된 요소의 개수를 표본 크기라고 부릅니다.

  • 표본의 크기는 모집단의 성질을 추정할 때의 확실성이나 가설검정의 결과에도 영향을 미치기 때문에, 통계분석에 있어 중요한 요소 중 하나입니다.

통계 분석의 기초

데이터 유형

  • 데이터 중 공통의 측정 방법으로 얻은 같은 성질의 값을 변수라고 합니다.

  • 통계학에서 변수의 개수는 차원이라고 표현되기도 합니다.

  • 데이터를 수집할 때나 분석을 실행할 때는 변수가 어떤 유형인지 주의 깊게 고려하는 것이 중요합니다.

  • 숫자로 나타낼 수 있는 양적 변수와 숫자가 아닌 범주로 표현할 수 있는 질적 변수가 있습니다. 또한 양적 변수는 연속변수와 이산변수로 나뉩니다.

데이터 분포

  • 데이터가 어떻게 분포되어 있는지를 그래프 등으로 시각화하여, 대략적인 데이터 경향을 파악하는 것이 데이터 분석의 첫 단계입니다.

  • 데이터 분포를 그림으로 나타내는 데에는 어떤 값이 데이터 몇 개 포함되어 있는가를 나타내는 도수분포표를 자주 사용합니다.

통계량

  • 데이터 그 자체의 성질을 기술하고 요약하는 통계량인 기술통계량(요약통계량)이 있습니다.

대푯값

  • 대략적인 분포 위치, 즉 대표적인 값을 정량화하기 위해 사용하는 통계량입니다.

  • 평균값, 중앙값, 최빈값이 있습니다.

분산과 표준편차

  • 데이터의 퍼짐을 평가하기 위해서는 분산과 표준편차라는 통계량을 계산합니다.

  • 데이터가 어떤 분포인지 나타내는 그래프로, 자주 사용하는 상자 수염 그림이 있습니다.

확률

  • 확률이란 불확실한 사건의 발생 가능성을 숫자로 표현한 것입니다.

  • 확률분포란 가로축에 확률변수, 세로축에 그 확률변수의 발생 가능성을 표시한 분포입니다.

이론적인 확률분포

  • 이론적인 확률분포는 수식으로 표현되고, 분포의 형태를 정하는 숫자인 파라미터(모수)를 가집니다.
This post is licensed under CC BY 4.0 by the author.