이번 글 역시 수학적인 계산 과정보다는,
‘왜 이런 개념이 필요한가?’와 ‘어떤 상황에서 사용하는가?’를
중심으로 이해하기 쉽게 정리해보려 한다.
이번 글에서 다룰 내용
- 모집단과 표본
- 표본오차와 신뢰구간
- 정규분포
- 롱테일 분포
- t분포
- 카이제곱분포
- 이항분포
- 푸아송분포
1. 모집단(Population)과 표본(Sample)
- 모집단 : 관심 대상이 되는 전체 집단
ex. 전체 고객, 전체 사용자, 전국 성인, 전체 주문 데이터 - 표본 : 모집단에서 일부만 추출한 데이터
ex. 고객 1000명 설문, 특정 기간 사용자 로그, 일부 주문 데이터
→ 일부 데이터를 통해 전체 특성을 추정
2. 왜 표본을 사용할까?
- 현실적으로 전체 조사 어려움
- 대표성이 중요한 이유 : 표본은 모집단 특징을 최대한 잘 반영해야 한다
ex. 특정 연령만 조사, 특정 성별만 조사 → 결과 왜곡 가능성 증가
- 대표성이 중요한 이유 : 표본은 모집단 특징을 최대한 잘 반영해야 한다
| 이유 | 설명 |
| 비용 | 전수조사는 비용 큼 |
| 시간 | 데이터 수집 오래 걸림 |
| 접근성 | 전체 데이터 확보 어려움 |
| 처리 비용 | 데이터 분석 부담 증가 |
3. 전수조사 vs 표본조사
| 구분 | 전수조사 | 표본조사 |
| 조사 대상 | 전체 | 일부 |
| 정확도 | 높음 | 상대적으로 낮음 |
| 비용 | 큼 | 적음 |
| 시간 | 오래 걸림 | 빠름 |
| 대표성 문제 | 적음 | 발생 가능 |
4. 표본오차(Sampling Error)
- 표본 결과와 모집단 실제 값 사이의 차이
- 표본은 모집단 일부이기 때문에 발생
→ 즉, 표본은 모집단을 완벽하게 복제할 수 없다- 표본 크기 증가 → 표본오차 감소
- 무작위 추출 → 편향 감소
- 표본 작음 → 오차 증가 가능
5. 신뢰구간(Confidence Interval)
- 모집단 실제 값이 포함될 것으로 예상되는 범위
ex. 표본 평균 : 70점 | 95% 신뢰구간 : 68 ~ 72점
→ 실제 모집단 평균이 이 범위 안에 존재할 가능성이 높다고 추정
6. 정규분포(Normal Distribution)
- 종(Bell) 모양의 좌우 대칭 분포
- 평균 중심 → 데이터가 평균 주변에 몰림
- 좌우 대칭 → 양쪽 형태 유사
- 극단값 적음 → 평균에서 멀수록 빈도 감소
ex. 키 : 평균 근처 사람 많음, 몸무게 : 극단값 적음, 시험 점수 : 평균 점수 근처 집중
7. 롱테일 분포(Long Tail Distribution)
- 일부 데이터가 전체에 매우 큰 영향을 가지는 비대칭 분포(리얼 그래프 꼬리가 길어서 롱테일)
- 비대칭 → 한쪽 꼬리 길게 늘어짐
- 소수 집중 → 일부 데이터 영향 매우 큼
- 다수 소량 → 대부분 값은 작음
ex. 유튜브 조회수 : 일부 영상만 폭발적 조회, 쇼핑몰 매출 : 인기 상품 일부가 대부분 매출, SNS 팔로워 : 극소수 계정만 매우 많음
8. 스튜던트 t 분포(Student's t Distribution)
- 표본 수가 적고 모집단 표준편차를 모를 때 사용하는 분포
- 표본 적음 → 정규분포 대신 사용
- 꼬리 두꺼움 → 극단값 가능성 더 반영
- 데이터 증가 → 정규분포와 유사해짐
ex. 소규모 실험 : 표본 수 적음, 초기 서비스 분석 : 데이터 부족, A/B Test 초기 : 샘플 적은 경우
9. 카이제곱분포(Chi-Square Distribution)
- 범주형 데이터 분석에 사용하는 분포
- 독립성 검정 → 두 변수 관계 확인
- 적합도 검정 → 특정 분포 적합 여부 확인
ex. 성별과 구매 여부 : 관계있는지 분석, 연령과 후보 지지율 : 독립 여부 분석
10. 이항분포(Binomial Distribution)
- 성공/실패처럼 결과가 2개인 상황에서 사용하는 분포
- 결과 2개 → 성공/실패
- 반복 가능 → 여러 번 시행
- 확률 계산 → 성공 횟수 분석
ex. 동전 던지기 : 앞/뒤, 광고 클릭 : 클릭/미클릭, 회원가입 여부 : 가입/이탈
11. 푸아송분포(Poisson Distribution)
- 특정 시간이나 공간에서 사건 발생 횟수를 다루는 분포
- 사건 횟수 → 몇 번 발생했는지
- 시간/공간 기준 → 단위 시간당 분석
- 희귀 사건 분석 → 상대적으로 드물게 발생하는 사건 분석
ex. 콜센터 전화 수 : 시간당 통화 수, 웹사이트 방문 수 : 시간당 유입, 교통사고 수 : 특정 구간 사고 발생
12. 중심극한정리(Central Limit Theorem)
- 표본 수가 충분히 크면, 표본 평균의 분포는 정규분포에 가까워진다
- 왜 중요할까?
→ 현실 데이터는 완벽한 정규분포가 아닐 수 있음
but, 표본 수가 충분히 많고 반복 추출이 이루어지면 → 정규분포 기반 통계 기법 사용 가능
- 왜 중요할까?
13. 분포 선택 기준
- 데이터 충분히 많음 → 정규분포
- 표본 수 적음 → t분포
- 성공/실패 결과 → 이항분포
- 시간당 사건 수 → 푸아송분포
- 범주형 데이터 분석 → 카이제곱분포
- 일부 데이터 영향 큼 → 롱테일 분포
14. 실제 활용 사례
| 분석 | 목적 |
| A/B Test | UI 개선 효과 검증 |
| 퍼널 분석 | 이탈률 확인 |
| 세그먼트 분석 | 사용자 그룹 차이 분석 |
| 이상 탐지 | 비정상 패턴 발견 |
인사이트
여전히 용어가 많고 어렵다.
사실 어려운 개념은 아직 완전히 이해하지 못했다(한 번에 이해할 수 있다면 얼마나 좋을까).
근데 공통적으로 느낀 부분이 있다면,
데이터 분석에서는 단순히 데이터 양 자체보다 얼마나 대표성 있게 데이터를 추출했는지가 중요하다는 점이다.
그리고 대부분의 데이터가 평균 근처에 모이는 경우도 있지만,
실제 서비스 데이터는 롱테일 분포처럼 일부 데이터가 전체에 큰 영향을 미치는 경우도 많다는 점이 흥미로웠다.
최소한 ‘어떤 상황에서 어떤 분포를 사용하는가?’ 정도의 흐름은 이해할 필요가 있다고 느꼈다.
'Others. > 통계학 기초' 카테고리의 다른 글
| Chapter 4. 회귀분석(Regression Analysis)과 변수 간 관계 분석 (0) | 2026.06.02 |
|---|---|
| Chapter 3. 실험 설계와 통계적 의사결정(A/B 테스트, t검정, 다중검정) (0) | 2026.06.01 |
| Chapter 1. 데이터 분석을 위한 통계 (0) | 2026.05.07 |