빅데이터 & 인공지능

파이썬을 이용한 머신러닝 ) 다중선형회귀분석

헬로월드! 2020. 4. 28. 11:51

다중선형회귀분석이란?

두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 방법이다. 

앞서 알아본 단순회귀 분석을 확장한 개념으로 생각하면 된다.

 

파이썬 코드로 살펴보자!

 

 

패키지추가하기

 

linear_model: sklearn 패키지에서 제공하는 선형회귀분석을 할 수 있게 도와주는 모듈

numpy : 파이썬 언어를 위한 행렬 , 벡터 등의 수학계산을 위한 자료구조와 계산함수를 제공하는 패키지

pandas : 데이터 분석, 가공,처리 등을 쉽게 하기 위한 자료구조와 처리 함수들을 제공하는 패키지

matplotlib : 플롯 (그래프)를 그릴 때 주로 쓰는 패키지

matplotlib.pyplot : matplotlib 의 서브패키지 

 

데이터 만들기

 

X 는 x1, x2 데이터만 저장하는 독립변수 y 는 종속변수 

 

데이터프레임
데이터 학습시키기

 

prediction : 학습된 선형회귀분석을 이용해 나온 예측 값을 저장하는 변수

linear_regression.fit() : 선형회귀분석 모델에 맞게 학습하는 함수

 

적합도 검증

 

residuals: 예측하고자하는 'y' 값에서 모델을 통해 예측된 값을 빼서 잔차를 구해 저장한 변수

Pandas.DataFrame.decribe() : 다양한 요약 통계를 생성하는 함수. 숫자 형의 경우 전체 개수, 평균, 표준 편차, 최대 값, 최소 값, 백분위 수를 보여줌

- SSE : 결정계수 값을 구하기 위해 필요한 SSE 값을 계산 후 저장한 변수

- SST : 결정계수 값을 구하기 위해 필요한 SST 값을 계산 후 저장한 변수

- R_squared : 적합도 검증을 위해 필요한 결정계수 값을 계산 후 저장한 변수

 

 

성능평가하기