본문 바로가기

Others./통계학 기초

Chapter 3. 실험 설계와 통계적 의사결정(A/B 테스트, t검정, 다중검정)

지난 챕터에서는 데이터 분포와 모집단, 표본에 대해 다뤘다.

 

PM은 기능 개선, UI 변경, 신규 기능 출시와 같은 다양한 의사결정을 해야 하고,

그 과정에서 '이 변화가 실제로 효과가 있었는지'를 검증해야 한다.

 

이번 글에서는 PM이 실무에서 자주 접하게 되는 A/B 테스트와 실험 설계,

그리고 통계적 의사결정 과정에 대해 정리해보려 한다.

더보기

[게시글 목차]

 

1. 왜 실험이 필요한가

2. A/B 테스트

3. 실험 설계 과정

4. t검정

5. 제1종 오류와 제2종 오류

6. 다중검정(Multiple Testing)

7. PM 관점에서 결과 해석하기

 

 


 

1. 왜 실험이 필요한가?

  • 좋아 보이는 아이디어 ≠ 실제로 효과 있는 아이디어
    → 검증하기 위해 실험을 한다

 

2. A/B 테스트(A/B Test)

  • 두 가지 버전(A, B)을 사용자에게 각각 노출하고 결과를 비교하는 실험 방법이다
    ex. 기존 버튼(A) - 클릭률 10% → 변경 버튼(B) - 클릭률 12%
    → 표면적 숫자만 보면 B가 더 좋아 보인다
    but, 단순 우연에 의해 발생한 차이일 수 있음 → 통계적 검증 필요
  • A/B 테스트 목적
    → 관찰된 차이가 우연인지, 실제 효과인지 판단하는 것

 

3. 실험 설계 과정

단계 실험명 설명 / 예시
1단계 문제 발견 ex. 가입 전환율이 낮다 / 구매 완료율이 낮다
2단계 가설 수립 ex. 가입 버튼 색상을 변경하면 사용자의 시선이 더 집중되어 가입 전환율이 증가할 것이다
3단계 실험 설계 • A그룹 - 기존 화면
• B그룹 - 변경 화면
4단계 데이터 수집 ex. 클릭률 / 전환율 / 구매율
5단계 결과 분석 단순히 숫자가 달라졌는지 확인하는 것이 아니라, 통계적으로 의미 있는 차이인지 검증한다
6단계 의사결정 적용 / 유지 / 폐기 → 택 1

 

 

4. t검정(t-Test)

  • 두 집단 평균 차이가 통계적으로 유의미한지 확인하는 방법이다
    ex. A 디자인 클릭률 / B 디자인 클릭률 → 비교
  • 독립표본 t검정 : 서로 다른 두 집단 비교
    ex. 기존 사용자 그룹 / 신규 사용자 그룹
  • 대응표본 t검정 : 같은 대상을 전후 비교
    ex. 개선 전 만족도 / 개선 후 만족도

 

5. 제1종 오류와 제2종 오류

  • 제1종 오류(False Positive) : 실제로 효과가 없는데 효과가 있다고 판단
    ex. 버튼 색상 변경 → 실제 효과 없음 → 우연히 클릭률 증가 → 성공이라고 판단
  • 제2종 오류(False Negative) :실제로 효과가 있는데 효과가 없다고 판단
    ex. 좋은 기능 개선안 → 표본 부족 → 유의미하지 않다고 판단 → 폐기
구분 실제 효과 없음 실제 효과 있음
효과 있다고 판단 제1종 오류 정상
효과 없다고 판단 정상 제2종 오류

 

 

6. 다중검정(Multiple Testing)

  • 여러 가설을 동시에 검정하는 상황이다
    ex. 랜딩페이지 실험 : 버튼 색상, 버튼 크기, 문구, 이미지, 배너 위치 → 모두 동시 테스트
  • 문제점 :검정을 많이 할수록, 우연히 성공한 것처럼 보이는 결과가 증가한다
    즉, 실제로는 효과가 없음에도 우연히 p < 0.05가 나와 효과가 있다고 착각할 가능성이 높아진다
  • 실험을 많이 한다고 무조건 좋은 것은 아니다
    실험 수가 많아질수록, 거짓 성공(false positive)도 함께 늘어난다

 

7. PM 관점에서 결과 해석하기

  • 실무에서 많이 하는 실수
    ex 1. p < 0.05 = 무조건 성공
    ex 2. 수치가 조금 증가했으니 효과가 있다
    → 위처럼 성급히 판단하는 것
  • 실제로 봐야 할 것
    • 통계적 유의성 : 우연인가?
    • 효과 크기 : 얼마나 좋아졌는가?
    • 비즈니스 가치 : 실제 의미가 있는가?
      ex. 가입 전환율 10.00% → 10.05% (p-value < 0.05, 통계적으로 유의)
      but, 실제 비즈니스 영향은 거의 없을 수 있다
  • 통계적으로 유의한가? + 비즈니스적으로 의미 있는가?
    → 둘 다 확인해야 함