본문 바로가기

Others./통계학 기초

Chapter 1. 데이터 분석을 위한 통계

데이터 분석을 학습하다 보면 SQL과 같은 기술에 초점을 맞추게 된다.

하지만 실제로 데이터를 해석하고 PM적 의사결정(데이터 기반 판단)으로 이어주는 것은 결국 통계적 사고(Statistical Thinking)다.

이번 글에서는 데이터 분석의 기초가 되는 통계 개념들을 정리해보려 한다.

-

참고로 작성자는 디자인 전공자로, 고1 때 입시 미술을 핑계로 일찌감치 수학을 포기했다.

그래서 수학 공식이나 계산 과정을 디테일하게 파고들기보다는,
‘내가 이해할 수 있을 정도’의 난이도로 개념과 흐름 중심으로 정리하려 한다.

 


 

기술통계 + 추론통계 + 다양한 분석 방법 정리

 

 

1. 왜 데이터 분석에서 통계가 중요한가

  • 데이터를 읽을 수 있게 만들어준다(데이터 요약 → 해석 가능하게 변환)
  • 데이터는 그 자체만으로 의미를 주지 X → 숫자만 봐서는 특징 파악이 어려움
    but, 통계를 사용하면 '평균은 얼마인지', '값이 고르게 분포했는지', '이상치가 존재하는지', '증가 추세가 있는지'를 빠르게 파악할 수 있다

1-1. 데이터 기반 의사결정(Data-Driven Decision Making)

  • 감(Feeling)이 아니라 데이터(Data)를 기반으로 판단하는 것
    • 예를 들어
      • 고객 만족도가 실제로 떨어졌는가?
      • 새 UI가 전환율을 높였는가?
      • 광고 효율이 증가했는가?
      • 특정 연령대가 특정 상품을 더 선호하는가?
        → 같은 문제를 '감'이 아니라 '수치적'으로 검증 가능

1-2. 실제 비즈니스에서의 활용 사례

1. 고객 만족도 분석 2. 고객 세그먼트 분석 3. 서비스 개선 4. 매출 분석
- 설문 데이터 분석
- 불만 유형 파악
- 서비스 개선 우선순위 선정
- 연령/성별/구매패턴 기준 분류
- 추천 시스템 개선
- 타겟 마케팅 수행
- A/B Test
- 기능 개선 효과 검증
- 사용자 행동 분석
- 월별 매출 추세
- 계절성 분석
- 이탈률 분석
→ 즉, 통계는 비즈니스 의사결정을 위한 도구에 가깝다

 

 

2. 통계의 두 축 : 기술통계 vs 추론통계

  • 기술통계 : 데이터를 요약/설명
  • 추론통계 : 일부 데이터를 바탕으로 전체 추정

2-1. 기술통계(Descriptive Statistics)

  • 데이터를 요약하고 설명하는 통계 방법
  • 대표적 사용 예시
    • 평균(mean)
    • 중앙값(median)
    • 분산(variance)
    • 표준편차(standard deviation)
      → 전체를 완벽하게 아는 것은 아니지만, 요약된 특징을 파악 가능
      (초면인 사람한테 나이, 직업, MBTI와 같은 정보만으로 상대를 대략 파악하는 것과 비슷한 맥락)

 

3. 다양한 분석 방법

3-1. 평균(Mean)

  • 모든 값을 더한 뒤 데이터 개수로 나눈 값
    • 평균 = 전체 합 / 데이터 개수
      ex. 점수 : 70, 80, 90, 100, 60 → 평균 : (70 + 80 + 90 + 100 + 60) / 5 = 80
  • 장점 : 직관적, 전체 경향 파악 가능
  • 단점 : 이상치(outlier)에 매우 민감
    ex. 10, 20, 30, 1000(이상치)
    → 평균이 실제 분포를 왜곡할 수 있음

3-2. 중앙값(Median)

  • 데이터를 정렬했을 때 중앙에 위치한 값
    ex. 60, 70, 80, 90, 100 → 중앙값 : 80
  • 장점 : 이상치 영향을 덜 받음
  • 단점 : 전체 데이터 분포 반영은 부족할 수 있음
평균 vs 중앙값
상황 데이터 고르게 분포 이상치 존재
더 적합한 값 평균 중앙값

 

3-3. 분산(Variance)

  • 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타내는 값
    • 분산이 크다 → 데이터가 넓게 퍼져 있음
    • 분산이 작다 → 평균 근처에 모여 있음
  • 계산 방식 : (각 값 - 평균)^2 의 평균
    → 제곱을 하는 이유 : 음수 제거, 차이 강조

3-4. 표준편차(Standard Deviation)

  • 분산에 루트를 씌운 값
  • 계산 방식 : 표준편차 = √분산
    • 분산은 제곱 단위라 직관성이 떨어지므로, 다시 루트를 씌워 원래 단위로 되돌림
  • 특징
    • 값이 크면 → 데이터가 넓게 퍼짐
    • 값이 작으면 → 평균 근처에 몰림

3-5. 추론통계 (Inferential Statistics)

  • 표본(sample)을 바탕으로 모집단(population)을 추정하는 통계 방법
    • 현실에서는 전체 데이터를 모두 조사하기 어려우므로,
      전국민 조사, 모든 사용자 행동 분석, 모든 고객 인터뷰 → 비용/시간문제가 발생
      그래서 일부 데이터를 통해 전체를 추정한다
모집단 vs 표본
개념 모집단 표본
의미 전체 대상 일부 추출 데이터
예시 전체 고객 100만 명 설문 응답자 1000명

 

3-6. 신뢰구간(Confidence Interval)

  • 실제 값이 특정 범위 안에 존재할 가능성을 나타냄
  • 95% 확률로 실제 평균이 이 구간 안에 있다 X
    → 같은 방식으로 표본을 반복 추출했을 때, 계산된 구간의 95%가 실제 모수를 포함한다

3-7. 가설검정(Hypothesis Testing)

  • 특정 주장(가설)이 통계적으로 유의한지 검증하는 방법
    • 귀무가설(H0) : 변화 없음 → 별 차이 없을 것이다
    • 대립가설(H1) : 변화 있음 → 실제 차이가 있을 것이다
  • ex. 버튼 색 변경 → 클릭률 증가 여부 확인
    - 귀무가설 : 버튼 색 변경은 클릭률에 영향을 주지 않는다(클릭률 차이는 우연일 가능성이 있음)
    - 대립가설 : 버튼 색 변경이 클릭률 증가에 영향을 준다(실제 효과가 존재함)
    → 서로 반대되는 가설을 세우고, 데이터를 통해 어떤 가설이 더 타당한지 검증하는 과정

3-8. p-value

  • 현재 결과가 우연히 발생했을 가능성
  • 일반적으로 p < 0.05의 경우, 통계적으로 유의하다고 판단하는 경우 많음
  • but, '효과 크기(effect size)', '비즈니스 중요도'를 보장하지 X
  • 즉, 통계적으로 유의 ≠ 실제 서비스적으로 중요

3-9. 데이터 분포(Data Distribution)

  • 데이터가 어떻게 퍼져 있는지 확인하는 것

3-10. 히스토그램(Histogram)

  • 데이터 분포를 시각적으로 확인
    • 점수가 특정 구간에 몰려 있는가?
    • 치우쳐 있는가?
    • 이상치가 있는가?

3-11. 박스플롯(Box Plot)

  • 데이터의 '중앙값', '사분위수', '이상치'를 한 번에 확인 가능
    → 실무에서 이상치 탐지에 매우 자주 사용

3-12. 범위(Range)

  • 최대값 - 최솟값
    → 장점 : 계산이 쉬움, 단점 : 이상치에 매우 취약

3-13. 상관관계(Correlation)

  • 두 변수 간 관련성 정도
    • 상관계수 범위가 -1 ~ 1이라면
      → 1 : 강한 양의 상관
      → -1 : 강한 음의 상관
      → 0 : 관계 거의 없음
      ex. 공부 시간 ↑, 시험 점수 ↑  → 양의 상관관계

3-14. 상관관계 ≠ 인과관계

  • 이건 데이터 분석에서 가장 중요한 개념 중 하나다
    ex. '아이스크림 판매량 증가'와 '익사 사고 증가' 둘은 상관관계가 높을 수 있다
    but, 아이스크림이 익사를 유발하는 것은 아님 → 실제 원인 : 여름(기온 상승)
  • 상관관계 : 같이 움직임
  • 인과관계 : 실제 원인-결과

3-15. 다변량 분석(Multivariate Analysis)

  • 두 개 이상의 변수 관계를 동시에 분석하는 방법
    ex. 광고 채널 'TV', 'Radio', 'Newspaper'이 각각 매출에 어떤 영향을 주는가?
    → 매출, 전환율, 리텐션 등 모두 여러 요인의 영향을 동시에 받는다(현실 문제는 대부분 변수 하나로 설명 X)

 

4. PM이 통계를 대하는 태도

4-1. PM 관점에서 통계가 중요한 이유

  • PM은 데이터 기반 사고와 판단이 중요하기 때문에, 숫자를 읽는 능력이 중요하다
  • 실무에서 많이 쓰는 상황
    • A/B Test : 버튼 색 변경, UI 변경, 기능 개선 효과 검증
    • 퍼널 분석 : 가입 전환율, 이탈률 분석
    • 세그먼트 분석 : 연령대별 행동 차이, 고객군별 리텐션
    • KPI 모니터링 : DAU, 전환율, 재방문율

4-2. 데이터 분석에서 가장 중요한 태도

  • 데이터를 맹신하는 것보다, 데이터를 올바르게 해석하는 능력이 더 중요하다
    (불확실성을 줄이고 의사결정을 돕는 도구)

 


 

인사이트

 

데이터 분석에서 중요한 것은 단순한 스킬이 아니라,

주어진 데이터를 어떻게 해석하고 판단할 것인가에 대한 사고방식이라는 점이다.

평균, 중앙값, 분산 같은 개념들도 단순 계산 공식이 아니라

데이터의 특징과 변동성을 이해하기 위한 도구라는 점을 알게 되었다.

특히 상관관계와 인과관계처럼, 데이터에 나타난 관계를

그대로 사실이라고 받아들이는 것은 주의해야 한다는 점도 인상 깊었다.

결국 통계는 복잡한 수학이라기보다,

데이터를 근거로 더 합리적인 판단을 내리기 위한 도구에 가깝다고 느꼈다.
근데 용어가 너무 많다.........

물론 다 외울 생각은 전혀 없지만.


-


뭔가 큰 깨달음을 얻은 것처럼 보이지만, 사실 완전히 다 이해해서 작성했다기보다는

언젠가 다시 찾아봤을 때 스스로 이해하는 데 도움이 되었으면 하는 마음으로 정리했다.