상세 컨텐츠

본문 제목

필기) 3과목-04 분석 기법 - 회귀모형 1/3

빅데이터 분석 기사

by 37_KIM 2022. 8. 14. 00:26

본문

 

 

S3-02 분석 기법


1. 회귀 분석
2. 로지스틱 회귀 분석
3. 의사결정나무, SVM

4. 앙상블

5. 인공신경망, 딥러닝

6. 연관분석

7. 군집분석

 

 

1-1 회귀 분석(Regression Analysis)

  • 용어 정리
독립변수 - 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수, 설명 변수라고도 함
- 입력 값이나 원인을 나타내는 변수, y= f(x) 에서 x에 해당하는 것
종속변수 - 독립변수의 영향을 받아 값이 변화하는 수, 분석의 대상이 되는 변수
- 결과물이나 효과를 나타내는 변수, y= f(x) 에서 y에 해당하는 것
전차(오차항) - 계산에 의해 얻어진 이론 값과 실제 관측이나 측정에 의해 얻어진 값의 차이
- 오차(Error) - 모집단, 잔차(Residual) - 표본집단

 

  • 회귀 분석

- 변수와 변수 사이의 관계를 알아보기 위한 통계적 분석 방법

- 독립변수의 값에 의해 종속변수의 값을 예측하기 위함

- 일반 성형회귀는 종속변수가 연속형 변수일 때 가능함

 

 

1-2 회귀 모형

  • 선형 회귀 모형

- 종속변수 y와 한 개 이상의 독립변수 X와의 선형 상관 관계를 모델링하는 회귀분석 기법

- 한 개의 독립변수 : 단순 선형회귀, 둘 이상의 독립변수 : 다중 선형 회귀

 

  • 단순 선형 회귀 모형(독립변수 1개)

 

1-3 회귀 모형의 가정

  • 회귀 모형의 가정

- 선형성 : 독립변수의 변화에 따라 종속변수도 선형적으로 변화하는 선형(linear) 모형이다

- 독립성 : 잔차독립변수의 값이 관련되어있지 않다 (Durbin-Watson 통계량 확인)

- 정규성 : 잔차항이 정규분포를 이뤄야 한다

- 등분산성 : 잔차항들의 분포는 동일한 분산을 갖늗다

- 비상관성 : 잔차들끼리 상관이 없어야 한다

 

  • Normal Q-Q plot

- 정규성, 잔차가 정규분포를 잘 따르고 있는지 확인하는 그래프

- 잔차들이 그래프 대각선 상에 있어야 이상적임

- Normal Q-Q 그래프를 보면 y축이 표준화된 잔차이고 마름모로 찍힌것들이 잔차로 대각선모양으로 쭉 있는것이 정규성을 갖는다. 육안으로 봤을 때 완전한 직선인지 아닌지 판단 어려움. 현재 그래프처럼 끝이 기울어지거나 영역을 좀 벗어나 있거나 하는 모양이 나오면 정규성을 만족하지 않는다

 

  • Scale-Location

- 등분산성, y축이 표준화 잔차를 나타내며, 기울기 0인 직선이 이상적임

- Scale-Location 그래프를 보면 y축이 표준화된 잔차이고 빨간색으로 된 곡선이 있다 이 선이 직선으로 나오는 것이 가장 좋은 등분산성을 가진것이라는 의미 

 

※ 이상값(Outliler)

- 숫자와 함께 표시된 것

 

 

1-4 Residuals vs Fitted

- Residuals vs Fitted는 선형성, 등분산성에 대해 알아 볼 수 있는 그래프

  • 선형성 : y값의 기울기가 0인 직선이 이상적, 등분산성 : 점의 위치가 전체 그래프에 고르게 분포하는 것이 이상적

- 두번째 그래프를 보면 y값의 기울기가 0 인 직선이기 때문에 선형성을 가지고 있다(=이상적이다)고 볼 수 있다

 

왼쪽 그래프 오른쪽 그래프
Im(y-x) 회귀식에 대해서 빨간색 선을 봤을 때 기울기가 0인 직선이어야 하는데 기울기가 0이 아닌 U자 모양이고, 점이 전체에 고르게 분포되어 있는것이 아닌 선을 따라서 분포되어있다
그렇기때문에 

- Im(y-x)가 선형성, 잔차가 등분산성을 만족하지 않음
- U자 모형으로 제곱항을 넣어 보거나, 비선형으로 변환해 볼 수 있음
=> 선형성은 갖고 있지 않지만 제곱항이나 비선형으로 변환해서 y와 x간에 관계가 있을 수 있다는 것을 의미
선형성을 나타나는 것은 기울기가 0인 직선이고, 점들의 위치를 봤을 때 점점 증가되고있는 이분산성을 보인다

- 잔차가 등분산성을 만족하지 않음(서로다르다=이분산성)
- 분산이 증가하고 있음
- 종속변수를 log로 변환하여 사용
=> log는 큰 값을 작게 만드는 역할

 

 

1-5 Residuals vs Leverage

 

- 회귀 분석에는 잔차(Residual)의 크기가 큰 데이터가 Outlier가 되는데 이 중에서도 주로 관심을 가지는 것은 Leverage와 Residual의 크기가 모두 큰 데이터임

- Leverage : 종속변수의 값이 예측값에 영향을 나타낸 값

- Cook's distance는 Leverage와 Residual를 동시에 보기 위한 기준으로 그림에서 빨간색 점선으로 표시임

- Leverage가 커지거나 Residual의 크기가 커지면 Cook's distance 값이 커짐

- 일반적으로 1값이 넘어가면 관측치를 영향점(influence points)로 판별

 

- 이상값은 보이고 있지만 영향값은 없다 Cook's distance가 빨간색 점선으로 표기되어 있어야 하는데 표기되어 있지 않다

 

 

- 빨간색 점선으로 Cook's distance가 표시되어 있고 이상값이있고 해당 이상값은 예측값에 영향을 미친다 그러므로 영향점으로 표현할 수 있다

 

 

 

 

 

 

 

 

 

[출처] - EduAtoZ - Programming [빅데이터 분석기사 필기 3과목]

관련글 더보기