Chapter 02. 모집단과 표본추출
- 진도: 183p~
- 이해되지 않는 부분 표시 , 중요한 부분 표시
모집단과 표본추출
모집단과 표본, 전수조사와 표본조사
- 모집단: 분석 대상 전체의 집합
- 표본: 모집단의 부분집합, 즉 모집단의 일부를 추출한 것
- 전수조사: 모집단의 자료 전체를 조사 및 분석하여 정보를 추출하는 것
- 표본조사: 모집단에서 추출한 표본을 통해 모집단의 정보를 추정하고 검정하는 것(추론통계와 유사)
- 효과적인 표본조사를 하기 위해서는 표본 추출을 잘해야 한다.
표본조사를 하는 이유와 데이터과학 적용 방법
- 최종 분석에서는 전체 데이터를 사용하더라도, 분석 모델이 완성될 때까지는 표본 데이터를 활용하는 것이 경제적, 시간적으로 유리하다.
- 예측 및 분류 모델링 단계에서는 적절한 표본을 추출해서 진행하고 전체 프로세스가 완성됐을 때 전체의 데이터를 사용하여 최종적인 모델 성능을 확인하고 예측 및 분류하는 것이 좋다.
Q. 표본 조사를 통해 모집단의 크기를 유추하는 방법
표지 재포획법: 모집단의 수를 추정하는 방법
- 서식지에 사는 생물들의 군집의 밀도 파악, 유동 인구를 추정할 때 사용
표본추출에서 나타나는 편향의 종류
- 표본추출편향
- 가구편향
- 무응답편향
- 응답편향
- 표본 오차: 모집단과 표본의 자연 발생적인 변동
- 비표본 오차: cf. 편향, 자연 발생적이지 않은 변동
- 이러한 표본 편향은 확률화 등의 방법을 통해 최소화하거나 없앨 수 있다.
- 확률화란 모집단으로부터 편향이 발생하지 않는 표본을 추출하는 방법을 의미한다. 이렇게 추출한 표본을 확률표본이라고 한다.
인지적 편향의 종류
- 분석가의 성향이나 상황에 따라 비논리적인 추론을 내리는 패턴
- 확증 편향
- 기준점 편향
- 선택 지원 편향
- 분모 편향
- 생존자 편향
머신러닝 모델 측면의 편향과 분산
- 편향은 예측값들이 정답과 일정하게 차이가 나는 정도를 의미하며, 분산은 주어진 데이터 포인트(cf. 평균)에 대한 모델 예측의 가변성을 뜻한다.
- 예측이나 분류 모델을 만들 때 주어진 학습 데이터에 잘 맞도록 모델을 만들수록 편향은 줄어들고 분산은 증가할 수밖에 없다.
표본 편향을 최소화하기 위한 표본 추출 방법
- 데이터 수집 단계의 표본 추출
- 기업에서 이미 가지고 있는 몇 천만 건의 고객 정보데이터, 인터넷 기업의 웹 로그 데이터 등과 이른바 빅데이터에서 분석 모델링을 위한 적절한 크기의 표본데이터를 추출
데이터 수집 단계의 표본추출 과정
- 모집단 확정
- 표본 프레임 결정: 모집단에 포함되는 조사 대상의 목록 설정
- 표본 추출방법 결정
- 표본크기 결정
- 표본추출
데이터 수집단계의 표본추출의 경우에는 때로 표본프레임 설정이 어렵기 때문에 확률 표본추출방법을 사용할 수 없을 수도 있지만, 보유데이터에서 표본을 추출할 경우에는 확률 표본추출방법을 사용한다.
- 확률 표본추출방법
- 단순 임의 추출방법
- 계층적 표본추출방법: 모든 구성단위에 일련번호를 부여한 뒤 일정한 간격으로 표본을 선택하는 방법
- 층화 표본추출방법: 이 방법은 표본을 단순 임의 추출방법으로 선정했을 때 표본이 편중될 수 있는 위험을 보완한다.
- 군집 표본추출방법: 층화 표본추출방법처럼 모집단을 특정한 기준으로 분류한 뒤, 그중 하나의 소집단을 선택하여 분석하는 방법
복원추출과 비복원 추출은 말 그대로 추출했던 표본을 원래 모수에 복원시켜서 다시 추출이 가능하도록 하는가 그렇지 않은가에 따라 구분되는 방식이다.
- 표본공간: 통계학 및 확률론에서 실험이나 관찰의 모든 가능한 결과들의 집합을 의미합니다. 표본공간은 보통 𝑆나 Ω로 표기하며, 실험의 맥락에 따라 각 결과가 원소가 됩니다.
- 복원추출법
- 비복원추출법
This post is licensed under CC BY 4.0 by the author.