본문 바로가기
Others./통계학 기초

Chapter 5. 데이터 분석 과정에서 발생할 수 있는 대표적인 함정과 주의점

by mekite 2026. 6. 3.

지난 챕터에서는 회귀분석을 통해 변수 간 관계를 분석하는 방법을 정리했다.
but, 데이터를 분석한다고 해서 항상 올바른 결론이 나오는 것은 아니다.
아무리 좋은 분석 방법을 사용하더라도 데이터를 잘못 수집하거나 결과를 잘못 해석하면 엉뚱한 결론에 도달할 수 있다.
실제로 통계 분석에서는 어떤 분석 기법을 사용했는지보다 데이터를 어떻게 수집했고,

어떻게 검증했는지가 더 중요한 경우도 많다고 한다.

이번 글에서는 데이터 분석 과정에서 발생할 수 있는 대표적인 함정과 주의해야 할 점들을 정리해보려 한다.

더보기

[게시글 목차]

 

 

1. 재현 가능성(Reproducibility)

2. p-해킹(P-Hacking)

3. 선택적 보고(Selective Reporting)

4. 자료수집 중단 시점 문제

5. 데이터 탐색과 검증 분리

6. 데이터 분석 시 주의할 점

 

 


 

1. 재현 가능성(Reproducibility)

  • 동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지를 의미
    → 누가 다시 분석해도 같은 결과가 나와야 한다(한 번만 우연히 나온 것 → 신뢰 X)

 

2. p-해킹(P-Hacking)

  • 원하는 결과가 나올 때까지 계속 분석 조건을 바꾸는 행위
    ex. 처음 분석 : p = 0.08 → 유의하지 않음 → 데이터 일부 제외 → 조건 변경 → 변수 추가
    → p = 0.04 → 유의함 → 성공
  • 문제점 : 실제 효과가 없어도 우연히 유의미한 결과를 만들 수 있다
    즉, '우연 → 효과처럼 보임'과 같은 상황이 발생한다


3. 선택적 보고(Selective Reporting)

  • 원하는 결과만 보고하고 불리한 결과는 제외하는 문제
    ex. 실험 10개 수행 → 결과 : 성공(1) / 실패(9)
    but, 성공한 실험만 보고 '효과가 있었다'라고 결론 내림
  • 문제점 : 실제보다 효과가 과장될 수 있다


4. 자료수집 중단 시점 문제

  • 결과가 마음에 들 때까지만 데이터를 수집하는 문제
    ex. 100명 수집 → 효과 없음 → 150명 수집 → 효과 없음 → 200명 수집 → 우연히 p < 0.05 → 실험 종료
  • 문제점 : 통계적 오류 가능성 증가, 실제보다 효과가 크게 보일 수 있음


5. 데이터 탐색과 검증 분리

  • 통계 분석에서는 '데이터 탐색(Exploration)'과 '데이터 검증(Validation)'을 구분하는 것이 중요하다
  • 데이터 탐색 : 패턴을 찾는 단계
    ex. 어떤 연령대가 구매를 많이 하는가?, 어떤 기능을 자주 사용하는가?
  • 데이터 검증 : 발견한 패턴이 실제로 존재하는지 확인하는 단계
    ex. 정말 20대가 구매율이 높은가?, 우연히 나타난 결과는 아닌가?
  • 분리해야 하는 이유
    • 같은 데이터로 '탐색 → 검증'까지 하면 우연한 패턴을 진짜라고 착각할 수 있다


6. 데이터 분석 시 주의할 점

주의사항 설명
상관관계 ≠ 인과관계 함께 움직인다고 원인-결과는 아님
p-value 맹신 금지 유의미함 ≠ 중요함
표본 대표성 확인 표본 편향 주의
재현 가능성 확보 반복 검증 필요
탐색과 검증 분리 과도한 최적화 방지
결과 전체 공개 선택적 보고 방지

 

 

◾한눈에 보기

문제 발생 원인
p-해킹 원하는 결과가 나올 때까지 분석
선택적 보고 좋은 결과만 공개
자료수집 중단 결과가 좋을 때 실험 종료
재현 불가 분석 과정 기록 부족
잘못된 결론 탐색과 검증 미분리