이번 포스팅은 평균과 중심극한정리에 대해 알아보자. 우리가 데이터로 특정 값을 추정할 때, 항상 모든 값을 조사할 수는 없다. 예를 들어, 전국민의 키를 조사한다고 가정해보자. 전수조사로 모든 사람의 키를 확인해서 평균값을 제작할 수 있지만, 엄청난 시간과 비용이 소모된다. 이럴 때 필요한 것이 표본이다. 표본에 대해 알아보기 전에, 먼저 기본적인 대푯값들을 정리해보자.
주요 개념
1. 평균
평균은 가장 기본적인 대푯값으로, 데이터의 중심 위치를 나타낸다. 전체 데이터 값의 합을 데이터 개수로 나눠서 구할 수 있으며, 다음과 같은 특징을 가진다.
- 모든 데이터 값을 사용해서 계산
- 단순하고 직관적인 해석 가능
- 데이터의 대칭성에 민감(이상치에 취약)
우리가 흔히 사용하는 평균은 산술평균이지만, 데이터 사이언스에서는 다른 평균을 활용할 때도 있다.
- 산술평균 : 가장 일반적으로 사용되는 형태, 모든 데이터 값을 더한 후 데이터 개수로 나눈 값
- 가중평균 : 데이터 값에 가중치를 부여하여 계산하는 평균, 가중치가 클수록 해당 값의 기여도가 커짐
- 기하평균 : 데이터 값의 곱에 데이터 개수의 역수 거듭제곱을 취한값으로, 비율이나 백분율 데이터에 적합
2. 분산과 표준편차
분산과 표준편차는 데이터가 평균으로부터 퍼져있는 정도, 즉 데이터의 분포를 나타낸다.
- 분산 : 각 데이터값과 평균과의 차이 제곱의 평균
- 표준편차 : 분산의 제곱근
3. 모집단과 표본
- 모집단(population) : 연구 대상이 되는 전체 집단
- 표본(sample) : 모집단에서 추출한 부분 집단
- 표본을 통해 모집단의 특성을 추정할 수 있음
4. 정규분포

정규 분포는 종 모양의 곡선으로 나타나는 연속 확률 분포이다. 데이터 값이 평균 주변에 밀집되어 있고, 평균에서 멀어질수록 데이터 값의 빈도가 감소하는 특징을 갖는다.
중심극한정리(Central Limit Theorem)
중심극한정리란, 표본의 크기가 충분히 크다면 표본 평균의 분포가 정규 분포를 따른다는 개념이다. 즉, 모집단의 분포 형태와 무관하게 표본 평균의 분포는 정규 분포를 따르게 된다. 주요 조건은 다음과 같다.
- 표본의 크기가 충분히 크다 ( n >= 30)
- 개별 데이터는 서로 독립적이다.
- 모집단의 분포는 정규 분포를 따를 필요는 없음
만약 모집단의 분포가 정규 분포라면, 표본의 개수와 무방하게 표본평균의 분포는 정규분포이다. 모집단이 정규분포가 아니더라도 표본의 크기가 30이상이 되면 표본평균의 분포가 모집단의 분포와 상관없이 표본의 개수 n이 커짐에 따라 정규분포에 근사하는데, 이것이 바로 중심극한정리이다.
모집단 평균 추정
중심극한정리에 따르면 표본 크기가 충분히 크면, 표본 평균의 분포는 정규 분포를 따르게 된다. 이를 통해 모집단의 평균을 추정할 수 있다.
- 점추정 : 표본 평균을 사용하여 모집단 평균을 추정
- 구간추정 : 신뢰구간을 사용하여 모집단 평균이 존재할 가능성이 높은 범위를 추정
- 모평균 : 추정하고 싶은 정답
- 표본평균 : 모평균에 대한 추정치
- 표준오차 : 표본 평균의 표준편차를 의미한다. 즉, 표본 평균이 모집단 평균으로부터 얼마나 떨어져 있을 수 있을지를 나타내는 값
95% 신뢰구간
신뢰구간은 모집단 모수(평균)가 있을 것으로 기대되는 범위를 뜻한다. 95% 신뢰구간은 만약 동일한 절차로 무한히 많은 표본을 추출한다면, 그 중 95%의 신뢰구간이 모집단 모수를 포함할 것이라는 의미이다.
95% 신뢰구간은 다음과 같이 계산된다. 이 공식은 표분평균의 분포가 정규분포를 따른다는 중심극한정리에 기반한다.
95% 신뢰구간 = (표본 평균 - 1.96 표준오차, 표본 평균 + 1.96 표준오차)
예를 들어, 표본평균이 50, 표준오차가 2라면 95% 신뢰구간은 (50 - 1.962, 50 + 1.962) = (46.08, 53.92)가 된다. 즉, 모집단 평균이 46.08에서 53.92 사이에 있을 것이라고 95% 확신할 수 있다. 신뢰구간의 범위는 표준오차에 따라 달라진다. 표준오차가 작을수록(표본 크기가 클수록) 신뢰구간이 좁아진다.
요약하면, 표본평균과 표준오차를 이용하여 모집단 평균에 대한 점추정(표본평균)과 구간추정(신뢰구간)이 가능하다. 중심극한정리에 의해 표본 크기가 충분히 크다면 표본평균의 정규분포 가정이 성립하므로, 이를 기반으로 신뢰구간을 계산할 수 있다.
자료 출처
'Data Science' 카테고리의 다른 글
| [에이블스쿨] 딥러닝이란? (0) | 2024.04.06 |
|---|---|
| [에이블스쿨] SVM (2) | 2024.03.24 |
| [Retention] 리텐션 (0) | 2024.02.15 |
| [RFM] 고객 세분화 분석이란? (0) | 2024.01.19 |
| [KNIME] PostgreSQL 연결 (2) | 2023.12.03 |