본문 바로가기

Others./통계학 기초

Chapter 2. 모집단, 표본, 데이터 분포의 이해

이번 글 역시 수학적인 계산 과정보다는,
‘왜 이런 개념이 필요한가?’와 ‘어떤 상황에서 사용하는가?’를

중심으로 이해하기 쉽게 정리해보려 한다.

 

이번 글에서 다룰 내용
  • 모집단과 표본
  • 표본오차와 신뢰구간
  • 정규분포
  • 롱테일 분포
  • t분포
  • 카이제곱분포
  • 이항분포
  • 푸아송분포

 


 

 

1. 모집단(Population)과 표본(Sample)

  • 모집단 : 관심 대상이 되는 전체 집단
    ex. 전체 고객, 전체 사용자, 전국 성인, 전체 주문 데이터
  • 표본 : 모집단에서 일부만 추출한 데이터
    ex. 고객 1000명 설문, 특정 기간 사용자 로그, 일부 주문 데이터
    → 일부 데이터를 통해 전체 특성을 추정

 

2. 왜 표본을 사용할까?

  • 현실적으로 전체 조사 어려움
    • 대표성이 중요한 이유 : 표본은 모집단 특징을 최대한 잘 반영해야 한다
      ex. 특정 연령만 조사, 특정 성별만 조사 → 결과 왜곡 가능성 증가
이유 설명
비용 전수조사는 비용 큼
시간 데이터 수집 오래 걸림
접근성 전체 데이터 확보 어려움
처리 비용 데이터 분석 부담 증가

 

3. 전수조사 vs 표본조사

구분 전수조사 표본조사
조사 대상 전체 일부
정확도 높음 상대적으로 낮음
비용 적음
시간 오래 걸림 빠름
대표성 문제 적음 발생 가능

 

4. 표본오차(Sampling Error)

  • 표본 결과와 모집단 실제 값 사이의 차이
  • 표본은 모집단 일부이기 때문에 발생
    → 즉, 표본은 모집단을 완벽하게 복제할 수 없다
    • 표본 크기 증가 → 표본오차 감소
    • 무작위 추출 → 편향 감소
    • 표본 작음 → 오차 증가 가능

 

5. 신뢰구간(Confidence Interval)

  • 모집단 실제 값이 포함될 것으로 예상되는 범위
    ex. 표본 평균 : 70점 | 95% 신뢰구간 : 68 ~ 72점
    → 실제 모집단 평균이 이 범위 안에 존재할 가능성이 높다고 추정

 

6. 정규분포(Normal Distribution)

  • 종(Bell) 모양의 좌우 대칭 분포
    • 평균 중심 → 데이터가 평균 주변에 몰림
    • 좌우 대칭 → 양쪽 형태 유사
    • 극단값 적음 → 평균에서 멀수록 빈도 감소
      ex. 키 : 평균 근처 사람 많음, 몸무게 : 극단값 적음, 시험 점수 : 평균 점수 근처 집중

 

7. 롱테일 분포(Long Tail Distribution)

  • 일부 데이터가 전체에 매우 큰 영향을 가지는 비대칭 분포(리얼 그래프 꼬리가 길어서 롱테일)
    • 비대칭 → 한쪽 꼬리 길게 늘어짐
    • 소수 집중 → 일부 데이터 영향 매우 큼
    • 다수 소량 → 대부분 값은 작음
      ex. 유튜브 조회수 : 일부 영상만 폭발적 조회, 쇼핑몰 매출 : 인기 상품 일부가 대부분 매출, SNS 팔로워 : 극소수 계정만 매우 많음

 

8. 스튜던트 t 분포(Student's t Distribution)

  • 표본 수가 적고 모집단 표준편차를 모를 때 사용하는 분포
    • 표본 적음 → 정규분포 대신 사용
    • 꼬리 두꺼움 → 극단값 가능성 더 반영
    • 데이터 증가 → 정규분포와 유사해짐
      ex. 소규모 실험 : 표본 수 적음, 초기 서비스 분석 : 데이터 부족, A/B Test 초기 : 샘플 적은 경우

 

9. 카이제곱분포(Chi-Square Distribution)

  • 범주형 데이터 분석에 사용하는 분포
    • 독립성 검정 → 두 변수 관계 확인
    • 적합도 검정 → 특정 분포 적합 여부 확인
      ex. 성별과 구매 여부 : 관계있는지 분석, 연령과 후보 지지율 : 독립 여부 분석

 

10. 이항분포(Binomial Distribution)

  • 성공/실패처럼 결과가 2개인 상황에서 사용하는 분포
    • 결과 2개 → 성공/실패
    • 반복 가능 → 여러 번 시행
    • 확률 계산 → 성공 횟수 분석
      ex. 동전 던지기 : 앞/뒤, 광고 클릭 : 클릭/미클릭, 회원가입 여부 : 가입/이탈

 

11. 푸아송분포(Poisson Distribution)

  • 특정 시간이나 공간에서 사건 발생 횟수를 다루는 분포
    • 사건 횟수 → 몇 번 발생했는지
    • 시간/공간 기준 → 단위 시간당 분석
    • 희귀 사건 분석 → 상대적으로 드물게 발생하는 사건 분석
      ex. 콜센터 전화 수 : 시간당 통화 수, 웹사이트 방문 수 : 시간당 유입, 교통사고 수 : 특정 구간 사고 발생

 

12. 중심극한정리(Central Limit Theorem)

  • 표본 수가 충분히 크면, 표본 평균의 분포는 정규분포에 가까워진다
    • 왜 중요할까?
      → 현실 데이터는 완벽한 정규분포가 아닐 수 있음
      but, 표본 수가 충분히 많고 반복 추출이 이루어지면 → 정규분포 기반 통계 기법 사용 가능

 

13. 분포 선택 기준

  • 데이터 충분히 많음 → 정규분포
  • 표본 수 적음 → t분포
  • 성공/실패 결과 → 이항분포
  • 시간당 사건 수 → 푸아송분포
  • 범주형 데이터 분석 → 카이제곱분포
  • 일부 데이터 영향 큼 → 롱테일 분포

 

14. 실제 활용 사례

분석 목적
A/B Test UI 개선 효과 검증
퍼널 분석 이탈률 확인
세그먼트 분석 사용자 그룹 차이 분석
이상 탐지 비정상 패턴 발견



 

인사이트

 

여전히 용어가 많고 어렵다.

사실 어려운 개념은 아직 완전히 이해하지 못했다(한 번에 이해할 수 있다면 얼마나 좋을까).
근데 공통적으로 느낀 부분이 있다면,

데이터 분석에서는 단순히 데이터 양 자체보다 얼마나 대표성 있게 데이터를 추출했는지가 중요하다는 점이다.
그리고 대부분의 데이터가 평균 근처에 모이는 경우도 있지만,

실제 서비스 데이터는 롱테일 분포처럼 일부 데이터가 전체에 큰 영향을 미치는 경우도 많다는 점이 흥미로웠다.

최소한 ‘어떤 상황에서 어떤 분포를 사용하는가?’ 정도의 흐름은 이해할 필요가 있다고 느꼈다.