본문 바로가기

Others./통계학 기초

Chapter 4. 회귀분석(Regression Analysis)과 변수 간 관계 분석

지난 챕터에서는 A/B 테스트와 가설검정을 통해 '차이가 있는가?'를 판단하는 방법(통계적 검증)을 정리했었다.

추가적으로 특정 요인이 결과에 어떤 영향을 주는지 분석해야 하는 경우가 많다고 한다.

이번 글에서는 변수 간 관계를 분석하고 예측하는 데 사용되는 회귀분석(Regression)에 대해 정리해보려 한다.

더보기

[게시글 목차]

 

1. 회귀분석(Regression)
2. 단순선형회귀(Simple Linear Regression)
3. 다중선형회귀(Multiple Linear Regression)
4. 다중공선성(Multicollinearity)
5. 범주형 변수 처리
6. 다항회귀와 스플라인 회귀
   6-1. 다항회귀(Polynomial Regression)
   6-2. 스플라인 회귀(Spline Regression)
7. 회귀분석 종류 및 사용 상황 정리

 


 

1. 회귀분석(Regression)

  • 독립변수(X)가 종속변수(Y)에 어떤 영향을 주는지 분석하고 미래 값을 예측하는 기법이다
    → '어떤 요인이 결과에 영향을 주는가?'를 분석하는 방법이다
  • 독립변수(X)
    ex. 광고비 / 공부 시간 / 경력
  • 종속변수(Y)
    ex. 매출 / 시험 점수 / 연봉

 

2. 단순선형회귀(Simple Linear Regression)

  • 독립변수 1개와 종속변수 1개의 관계를 직선으로 표현하는 방법이다
  • 회귀식 : Y = β₀ + βX
    • 변수 수 : 독립변수 1개
    • 장점 : 이해와 해석이 쉬움
    • 활용 : 영향력 분석, 예측
    • 한계 : 직선 관계만 설명 가능
      ex. 광고비 → 매출 / 공부 시간 → 시험 점수

 

3. 다중선형회귀

  • 독립변수가 여러 개인 경우 사용하는 회귀분석이다(cuz 현실의 문제는 대부분 여러 요인이 동시에 영향을 주기 때문)
    ex. 매출은 광고비 하나만으로 결정되지 않는다
    → 매출에 영향을 주는 변수 : TV 광고비, 라디오 광고비, 신문 광고비, etc...
  • 회귀식 : Y = β₀ + β₁X₁ + β₂X₂ +... + βX

 

4. 다중공선성(Multicollinearity)

  • 독립변수끼리 서로 강한 상관관계를 가지는 현상이다

◾예시. 온라인 쇼핑몰 데이터

  • 방문자 수가 많으면 페이지뷰 수도 대부분 증가한다
발생하는 문제 설명
변수 해석 어려움 어떤 변수가 영향을 주는지 판단 어려움
모델 불안정 결과가 흔들릴 수 있음
예측력 저하 모델 품질 저하 가능
진단 기준 : 상관계수(약 0.7 이상) / VIF*(일반적으로 10 이상)
→ 해결 방법 :  상관성이 높은 변수 제거 / PCA(주성분분석) 활용

 

* VIF(분산팽창요인, Variance Inflation Factor) : 다중회귀분석에서 독립변수들 간에 상관관계(다중공선성)가 얼마나 존재하는지 측정하는 통계 지표

 

5. 범주형 변수 처리

  • 회귀분석은 숫자를 계산한다
    따라서, 문자 데이터를 그대로 사용할 수 없다
    ex. 성별 / 지역 / 직군 / 회원등급
    • 순서가 있는 경우
      ex. S → 0 / M → 1 / L → 2 / XL → 3
    • 순서가 없는 경우
      ex. 서울 / 부산 / 대전 / 전주
      → 이 경우에는 숫자를 부여하기 어렵다
      그래서, 원-핫 인코딩(One-Hot Encoding)을 사용한다
지역 서울 부산 대전 전주
서울 1 0 0 0
부산 0 1 0 0
대전 0 0 1 0
전주 0 0 0 1

 

6. 다항회귀와 스플라인 회귀

  • 현실 데이터는 항상 직선으로 움직이지 않는다
    그래서 곡선 관계를 설명하기 위한 방법이 필요하다
구분 다항회귀 스플라인 회귀
구조 하나의 곡선 여러 곡선 연결
특징 비선형 관계 표현 구간별 패턴 표현
장점 구현이 비교적 쉬움 복잡한 데이터 표현 가능
단점 과적합 위험 매듭점(Knot) 설정 필요

 

6-1. 다항회귀(Polynomial Regression)

  • 직선 대신 곡선을 사용하는 회귀분석이다
    • 단순 선형회귀 : y = β₀ + β₁x
    • 다항회귀(2차) : y = β₀ + β₁x + β₂
    • 다항회귀(n차) : y = β₀+ β₁x + β₂ + + βxⁿ

* 과적합(Overfitting) : 모델이 학습 데이터에 지나치게 맞춰져 새로운 데이터에서 성능이 떨어지는 상태

 

6-2. 스플라인 회귀(Spline Regression)

  • 전체를 하나의 곡선으로 설명하는 대신,
    구간별로 다른 회귀식을 연결해서 사용하는 방법이다
    ex. 광고비 구간 :
    0 ~ 100만원 → 효과 큼

    100~300만원 → 효과 감소
    300만원 이상 → 효과 거의 없음
     구간별 특성이 다른 경우 사용

 

7. 회귀분석 종류 및 사용 상황 정리

분석 방법 사용 상황
단순선형회귀 변수 1개
다중선형회귀 변수 여러 개
범주형 변수 처리 문자 데이터 포함
다항회귀 곡선 관계
스플라인 회귀 복잡한 비선형 관계