Chapter 5. 데이터 분석 과정에서 발생할 수 있는 대표적인 함정과 주의점

지난 챕터에서는 회귀분석을 통해 변수 간 관계를 분석하는 방법을 정리했다.
but, 데이터를 분석한다고 해서 항상 올바른 결론이 나오는 것은 아니다.
아무리 좋은 분석 방법을 사용하더라도 데이터를 잘못 수집하거나 결과를 잘못 해석하면 엉뚱한 결론에 도달할 수 있다.
실제로 통계 분석에서는 어떤 분석 기법을 사용했는지보다 데이터를 어떻게 수집했고,

어떻게 검증했는지가 더 중요한 경우도 많다고 한다.

이번 글에서는 데이터 분석 과정에서 발생할 수 있는 대표적인 함정과 주의해야 할 점들을 정리해보려 한다.

[게시글 목차]

1. 재현 가능성(Reproducibility)

2. p-해킹(P-Hacking)

3. 선택적 보고(Selective Reporting)

4. 자료수집 중단 시점 문제

5. 데이터 탐색과 검증 분리

6. 데이터 분석 시 주의할 점

1. 재현 가능성(Reproducibility)

동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지를 의미
→ 누가 다시 분석해도 같은 결과가 나와야 한다(한 번만 우연히 나온 것 → 신뢰 X)

2. p-해킹(P-Hacking)

원하는 결과가 나올 때까지 계속 분석 조건을 바꾸는 행위
ex. 처음 분석 : p = 0.08 → 유의하지 않음 → 데이터 일부 제외 → 조건 변경 → 변수 추가
→ p = 0.04 → 유의함 → 성공
문제점 : 실제 효과가 없어도 우연히 유의미한 결과를 만들 수 있다
즉, '우연 → 효과처럼 보임'과 같은 상황이 발생한다

3. 선택적 보고(Selective Reporting)

원하는 결과만 보고하고 불리한 결과는 제외하는 문제
ex. 실험 10개 수행 → 결과 : 성공(1) / 실패(9)
but, 성공한 실험만 보고 '효과가 있었다'라고 결론 내림
문제점 : 실제보다 효과가 과장될 수 있다

4. 자료수집 중단 시점 문제

결과가 마음에 들 때까지만 데이터를 수집하는 문제
ex. 100명 수집 → 효과 없음 → 150명 수집 → 효과 없음 → 200명 수집 → 우연히 p < 0.05 → 실험 종료
문제점 : 통계적 오류 가능성 증가, 실제보다 효과가 크게 보일 수 있음

5. 데이터 탐색과 검증 분리

통계 분석에서는 '데이터 탐색(Exploration)'과 '데이터 검증(Validation)'을 구분하는 것이 중요하다
데이터 탐색 : 패턴을 찾는 단계
ex. 어떤 연령대가 구매를 많이 하는가?, 어떤 기능을 자주 사용하는가?
데이터 검증 : 발견한 패턴이 실제로 존재하는지 확인하는 단계
ex. 정말 20대가 구매율이 높은가?, 우연히 나타난 결과는 아닌가?
분리해야 하는 이유
- 같은 데이터로 '탐색 → 검증'까지 하면 우연한 패턴을 진짜라고 착각할 수 있다

6. 데이터 분석 시 주의할 점

주의사항	설명
상관관계 ≠ 인과관계	함께 움직인다고 원인-결과는 아님
p-value 맹신 금지	유의미함 ≠ 중요함
표본 대표성 확인	표본 편향 주의
재현 가능성 확보	반복 검증 필요
탐색과 검증 분리	과도한 최적화 방지
결과 전체 공개	선택적 보고 방지

◾한눈에 보기

문제	발생 원인
p-해킹	원하는 결과가 나올 때까지 분석
선택적 보고	좋은 결과만 공개
자료수집 중단	결과가 좋을 때 실험 종료
재현 불가	분석 과정 기록 부족
잘못된 결론	탐색과 검증 미분리

'Others. > 통계학 기초' 카테고리의 다른 글

Chapter 4. 회귀분석(Regression Analysis)과 변수 간 관계 분석 (0)	2026.06.02
Chapter 3. 실험 설계와 통계적 의사결정(A/B 테스트, t검정, 다중검정) (0)	2026.06.01
Chapter 2. 모집단, 표본, 데이터 분포의 이해 (0)	2026.05.12
Chapter 1. 데이터 분석을 위한 통계 (0)	2026.05.07

Fake it till you make it — Become it

Chapter 5. 데이터 분석 과정에서 발생할 수 있는 대표적인 함정과 주의점

1. 재현 가능성(Reproducibility)

2. p-해킹(P-Hacking)

3. 선택적 보고(Selective Reporting)

4. 자료수집 중단 시점 문제

5. 데이터 탐색과 검증 분리

6. 데이터 분석 시 주의할 점

'Others. > 통계학 기초' 카테고리의 다른 글

티스토리툴바

Chapter 5. 데이터 분석 과정에서 발생할 수 있는 대표적인 함정과 주의점

1. 재현 가능성(Reproducibility)

2. p-해킹(P-Hacking)

3. 선택적 보고(Selective Reporting)

4. 자료수집 중단 시점 문제

5. 데이터 탐색과 검증 분리

6. 데이터 분석 시 주의할 점

'Others. > 통계학 기초' 카테고리의 다른 글

관련글

티스토리툴바