[Python 머신러닝] 05-1 회귀 소개
회귀
회귀 소개
- 회귀는 현대 통계학을 이루는 큰 축
- 회귀 분석은 유전적 특성을 연구하던 영국의 통계학자 갈톤(Galton)이 수행한 연구에서 유래했다는 것이 일반론
- 회귀 분석은 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 (예. 부모의 키가 크더라도 자식의 키가 대를 이어 무한정 커지지 않으며, 부모의 키가 작더라도 대를 이어 자식의 키가 무한정 작아지지 않는다.)
회귀(Regression) 개요
- 회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭한다.
-
머신러닝 회귀 예측의 힉심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이다.
아파트 가격 방 개수 아파트 크기 주변 학군 근처 지하철 역 개수 $Y = W_1 \times X_1 + W_2 \times X_2 + W_3 \times X_3 + … + W_n \times X_n$
$Y$는 종속변수 (아파트 가격)
$X_1, X_2, X_3, … , X_n$은 방 개수, 아파트 크기, 주변 학군 등의 독립변수
$W_1, W_2, W_3, … , W_n$은 이 독립변수의 값에 영향을 미치는 회귀 계수(Regression coefficients)
회귀의 유형
회귀는 회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 가지 유형으로 나눌 수 있다.
회귀예서 가장 중요한 것은 바로 회귀 계수이다.
이 회귀 계수가 ‘선형이냐 아니냐’에 따라 선형 회귀에 비선형 회귀로 나눌 수 있다.
그리고 독립변수의 개수가 한 개인지 여러 개인지에 따라 단일 회귀, 다중 회귀로 나뉜다.
| 독립변수 개수 | 회귀계수의 결합 |
|---|---|
| 1개: 단일 회귀 | 선형: 선형 회귀 |
| 여러 개: 다중 회귀 | 비선형: 비선형 회귀 |
분류(Classification)와 회귀(Regression)
- 분류의 결괏값: Category값(이산값)
- 회귀의 결괏값: 숫자값(연속값)
선형 회귀의 종류
- 일반 선형 회귀: 예측값과 실제값의 RSS(Residual Sum of Squares)를 최소화할 수 있도록 회귀 계수를 최적화하며, 규제(Regularization)를 적용하지 않는 모델
- 릿지(Ridge): 릿지 회귀는 선형 회귀에 L2 규제를 추가한 회귀 모델
- 라쏘(Lasso): 라쏘 회귀는 선형 회귀에 L1 규제를 적용한 방식
- 엘라스틱넷(ElasticNet): L2, L1 규제를 함께 결합한 모델
- 로지스틱 회귀(Logistic Regression): 로지스틱 회귀는 회귀라는 이름이 붙어 있지만, 사실은 분류에 사용되는 선형 모델