9.18 Chapter 01
통계학이란?
대상을 관찰하고 측정함으로써, 그 대상의 정보, 즉 데이터를 얻을 수 있습니다.
데이터는 수치의 모음으로, 막연히 바라보기만 해서는 무엇인지 제대로 알 수 없습니다.
데이터 분석의 목적
통계학을 배우는 첫 단계로, 데이터 분석의 목적은 무엇인가?부터 생각해 봅시다.
- 데이터 분석의 목적은 크게 다음 3가지로 들 수 있습니다.
- 데이터를 요약하는 것
- 대상을 설명하는 것
- 새로 얻을 데이터를 예측하는 것
데이터 요약: 아무런 처리도 하지 않은 원자료는 수치의 나열일 뿐이므로, 바라보기만 해서는 경향을 파악할 수 없습니다. 따라서 데이터를 요약하고 정리할 방법이 필요합니다.
대상 설명: 대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해하는 것입니다.
일반적으로 데이터 분석에서 말하는 관계성에는 인과관계와 상관관계가 있습니다.
인과관계란 2가지 중 하나를 변화시키면, 다른 하나도 바꿀 수 있는 관계를 말합니다.
상관관계란 한 쪽이 크면 다른 한 쪽도 큰 관계를 말합니다.
- 미지의 데이터 예측: 이미 얻은 데이터를 기반으로 이후 새롭게 얻을 데이터를 예측하는 것을 말합니다.
통계학의 역할
데이터 분석에서 통계학의 중요한 역할은, 퍼짐이 있는 데이터에 대해 설명이나 예측을 하는 것입니다.
확률을 사용하자: 통계학은 데이터 퍼짐이나 불확실성에 대처하는 방법을 제공하는데, 그 근거가 되는 것이 확률론입니다.
통계학의 전체 모습
수집한 데이터를 정리하고 요약하는 방법을, 기술통계라고 합니다.
이와는 달리 수집한 데이터로부터 데이터의 발생원을 추정하는 방법을, 추론통계라고 합니다.
데이터에서 가정한 확률 모형의 성질을 추정하는 방법인 통계적 추론이 있습니다.
세운 가설과 얻은 데이터가 얼마나 들어맞는지 평가하여, 가설을 채택할 것인가를 판단하는 방법인 가설 검정이 있습니다.
모집단과 표본
데이터 분석의 목적과 알고자 하는 대상
‘~를 예측한다’와 같이 구체적인 데이터 분석 목적을 정하는 것이 중요한 첫 단계입니다.
데이터 분석의 목적을 정했다면, 다음으로는 알고자 하는 대상을 명확히 하는 것이 중요합니다.
모집단
- 통계학에서는 알고자 하는 대상 전체를 모집단이라 합니다.
앞으로 많은 통계분석 방법을 살펴볼 터지만, 어떤 방법을 사용하든 간에 지금 알고자 하는 대상은 무엇인지 그리고 무엇을 모집단으로 설정할 것인지의 문제에는 항상 주의를 기울여야 합니다.
- 모집단에 포함된 요소의 수를 모집단 크기라고 합니다.
- 이는 유한모집단과 무한모집단으로 나뉩니다.
모집단의 성질을 알다
모집단의 성질을 알 수 있다면 대상을 설명하거나 이해할 수 있고, 미지의 데이터를 예측할 수도 있게 됩니다.
모집단의 성질을 아는 방법의 하나로, 모집단에 포함된 모든 요소를 조사하는 전수조사가 있습니다.
그러나 전수조사를 실시하려면 비용이나 시간 면에서 부담이 막대하여 실현 불가능할 때가 대부분입니다.
모집단의 일부를 분석하여 모집단 전체의 성질을 추정하는 추론통계라는 분야가 있습니다.
모집단의 일부를 표본이라 하며, 모집단에서 표본을 뽑는 것을 표본추출이라 합니다. 또한 표본을 이용해 모집단의 성질을 조사하는 것을 표본조사라고 합니다.
통계학에서 표본에 포함된 요소의 개수를 표본 크기라고 부릅니다.
표본의 크기는 모집단의 성질을 추정할 때의 확실성이나 가설검정의 결과에도 영향을 미치기 때문에, 통계분석에 있어 중요한 요소 중 하나입니다.
통계 분석의 기초
데이터 유형
데이터 중 공통의 측정 방법으로 얻은 같은 성질의 값을 변수라고 합니다.
통계학에서 변수의 개수는 차원이라고 표현되기도 합니다.
데이터를 수집할 때나 분석을 실행할 때는 변수가 어떤 유형인지 주의 깊게 고려하는 것이 중요합니다.
숫자로 나타낼 수 있는 양적 변수와 숫자가 아닌 범주로 표현할 수 있는 질적 변수가 있습니다. 또한 양적 변수는 연속변수와 이산변수로 나뉩니다.
데이터 분포
데이터가 어떻게 분포되어 있는지를 그래프 등으로 시각화하여, 대략적인 데이터 경향을 파악하는 것이 데이터 분석의 첫 단계입니다.
데이터 분포를 그림으로 나타내는 데에는 어떤 값이 데이터 몇 개 포함되어 있는가를 나타내는 도수분포표를 자주 사용합니다.
통계량
- 데이터 그 자체의 성질을 기술하고 요약하는 통계량인 기술통계량(요약통계량)이 있습니다.
대푯값
대략적인 분포 위치, 즉 대표적인 값을 정량화하기 위해 사용하는 통계량입니다.
평균값, 중앙값, 최빈값이 있습니다.
분산과 표준편차
데이터의 퍼짐을 평가하기 위해서는 분산과 표준편차라는 통계량을 계산합니다.
데이터가 어떤 분포인지 나타내는 그래프로, 자주 사용하는 상자 수염 그림이 있습니다.
확률
확률이란 불확실한 사건의 발생 가능성을 숫자로 표현한 것입니다.
확률분포란 가로축에 확률변수, 세로축에 그 확률변수의 발생 가능성을 표시한 분포입니다.
이론적인 확률분포
- 이론적인 확률분포는 수식으로 표현되고, 분포의 형태를 정하는 숫자인 파라미터(모수)를 가집니다.