지난 챕터에서는 A/B 테스트와 가설검정을 통해 '차이가 있는가?'를 판단하는 방법(통계적 검증)을 정리했었다.
추가적으로 특정 요인이 결과에 어떤 영향을 주는지 분석해야 하는 경우가 많다고 한다.
이번 글에서는 변수 간 관계를 분석하고 예측하는 데 사용되는 회귀분석(Regression)에 대해 정리해보려 한다.
더보기
[게시글 목차]
1. 회귀분석(Regression)
2. 단순선형회귀(Simple Linear Regression)
3. 다중선형회귀(Multiple Linear Regression)
4. 다중공선성(Multicollinearity)
5. 범주형 변수 처리
6. 다항회귀와 스플라인 회귀
6-1. 다항회귀(Polynomial Regression)
6-2. 스플라인 회귀(Spline Regression)
7. 회귀분석 종류 및 사용 상황 정리
1. 회귀분석(Regression)
- 독립변수(X)가 종속변수(Y)에 어떤 영향을 주는지 분석하고 미래 값을 예측하는 기법이다
→ '어떤 요인이 결과에 영향을 주는가?'를 분석하는 방법이다 - 독립변수(X)
ex. 광고비 / 공부 시간 / 경력 - 종속변수(Y)
ex. 매출 / 시험 점수 / 연봉
2. 단순선형회귀(Simple Linear Regression)
- 독립변수 1개와 종속변수 1개의 관계를 직선으로 표현하는 방법이다
- 회귀식 : Y = β₀ + β₁X
- 변수 수 : 독립변수 1개
- 장점 : 이해와 해석이 쉬움
- 활용 : 영향력 분석, 예측
- 한계 : 직선 관계만 설명 가능
ex. 광고비 → 매출 / 공부 시간 → 시험 점수
3. 다중선형회귀
- 독립변수가 여러 개인 경우 사용하는 회귀분석이다(cuz 현실의 문제는 대부분 여러 요인이 동시에 영향을 주기 때문)
ex. 매출은 광고비 하나만으로 결정되지 않는다
→ 매출에 영향을 주는 변수 : TV 광고비, 라디오 광고비, 신문 광고비, etc... - 회귀식 : Y = β₀ + β₁X₁ + β₂X₂ +... + βₙXₙ
4. 다중공선성(Multicollinearity)
- 독립변수끼리 서로 강한 상관관계를 가지는 현상이다
◾예시. 온라인 쇼핑몰 데이터
- 방문자 수가 많으면 페이지뷰 수도 대부분 증가한다
| 발생하는 문제 | 설명 |
| 변수 해석 어려움 | 어떤 변수가 영향을 주는지 판단 어려움 |
| 모델 불안정 | 결과가 흔들릴 수 있음 |
| 예측력 저하 | 모델 품질 저하 가능 |
| 진단 기준 : 상관계수(약 0.7 이상) / VIF*(일반적으로 10 이상) → 해결 방법 : 상관성이 높은 변수 제거 / PCA(주성분분석) 활용 |
|
* VIF(분산팽창요인, Variance Inflation Factor) : 다중회귀분석에서 독립변수들 간에 상관관계(다중공선성)가 얼마나 존재하는지 측정하는 통계 지표
5. 범주형 변수 처리
- 회귀분석은 숫자를 계산한다
따라서, 문자 데이터를 그대로 사용할 수 없다
ex. 성별 / 지역 / 직군 / 회원등급- 순서가 있는 경우
ex. S → 0 / M → 1 / L → 2 / XL → 3 - 순서가 없는 경우
ex. 서울 / 부산 / 대전 / 전주
→ 이 경우에는 숫자를 부여하기 어렵다
그래서, 원-핫 인코딩(One-Hot Encoding)을 사용한다
- 순서가 있는 경우
| 지역 | 서울 | 부산 | 대전 | 전주 |
| 서울 | 1 | 0 | 0 | 0 |
| 부산 | 0 | 1 | 0 | 0 |
| 대전 | 0 | 0 | 1 | 0 |
| 전주 | 0 | 0 | 0 | 1 |
6. 다항회귀와 스플라인 회귀
- 현실 데이터는 항상 직선으로 움직이지 않는다
그래서 곡선 관계를 설명하기 위한 방법이 필요하다
| 구분 | 다항회귀 | 스플라인 회귀 |
| 구조 | 하나의 곡선 | 여러 곡선 연결 |
| 특징 | 비선형 관계 표현 | 구간별 패턴 표현 |
| 장점 | 구현이 비교적 쉬움 | 복잡한 데이터 표현 가능 |
| 단점 | 과적합 위험 | 매듭점(Knot) 설정 필요 |
6-1. 다항회귀(Polynomial Regression)
- 직선 대신 곡선을 사용하는 회귀분석이다
- 단순 선형회귀 : y = β₀ + β₁x
- 다항회귀(2차) : y = β₀ + β₁x + β₂x²
- 다항회귀(n차) : y = β₀ + β₁x + β₂x² + ⋯ + βₙxⁿ
* 과적합(Overfitting) : 모델이 학습 데이터에 지나치게 맞춰져 새로운 데이터에서 성능이 떨어지는 상태
6-2. 스플라인 회귀(Spline Regression)
- 전체를 하나의 곡선으로 설명하는 대신,
구간별로 다른 회귀식을 연결해서 사용하는 방법이다
ex. 광고비 구간 :
0 ~ 100만원 → 효과 큼
100~300만원 → 효과 감소
300만원 이상 → 효과 거의 없음
⤷ 구간별 특성이 다른 경우 사용
7. 회귀분석 종류 및 사용 상황 정리
| 분석 방법 | 사용 상황 |
| 단순선형회귀 | 변수 1개 |
| 다중선형회귀 | 변수 여러 개 |
| 범주형 변수 처리 | 문자 데이터 포함 |
| 다항회귀 | 곡선 관계 |
| 스플라인 회귀 | 복잡한 비선형 관계 |
'Others. > 통계학 기초' 카테고리의 다른 글
| Chapter 3. 실험 설계와 통계적 의사결정(A/B 테스트, t검정, 다중검정) (0) | 2026.06.01 |
|---|---|
| Chapter 2. 모집단, 표본, 데이터 분포의 이해 (0) | 2026.05.12 |
| Chapter 1. 데이터 분석을 위한 통계 (0) | 2026.05.07 |