S3-02 분석 기법
1. 회귀 분석
2. 로지스틱 회귀 분석
3. 의사결정나무, SVM
4. 앙상블
5. 인공신경망, 딥러닝
6. 연관분석
7. 군집분석
1-1 회귀 분석(Regression Analysis)
독립변수 | - 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수, 설명 변수라고도 함 - 입력 값이나 원인을 나타내는 변수, y= f(x) 에서 x에 해당하는 것 |
종속변수 | - 독립변수의 영향을 받아 값이 변화하는 수, 분석의 대상이 되는 변수 - 결과물이나 효과를 나타내는 변수, y= f(x) 에서 y에 해당하는 것 |
전차(오차항) | - 계산에 의해 얻어진 이론 값과 실제 관측이나 측정에 의해 얻어진 값의 차이 - 오차(Error) - 모집단, 잔차(Residual) - 표본집단 |
- 변수와 변수 사이의 관계를 알아보기 위한 통계적 분석 방법
- 독립변수의 값에 의해 종속변수의 값을 예측하기 위함
- 일반 성형회귀는 종속변수가 연속형 변수일 때 가능함
1-2 회귀 모형
- 종속변수 y와 한 개 이상의 독립변수 X와의 선형 상관 관계를 모델링하는 회귀분석 기법
- 한 개의 독립변수 : 단순 선형회귀, 둘 이상의 독립변수 : 다중 선형 회귀
1-3 회귀 모형의 가정
- 선형성 : 독립변수의 변화에 따라 종속변수도 선형적으로 변화하는 선형(linear) 모형이다
- 독립성 : 잔차와 독립변수의 값이 관련되어있지 않다 (Durbin-Watson 통계량 확인)
- 정규성 : 잔차항이 정규분포를 이뤄야 한다
- 등분산성 : 잔차항들의 분포는 동일한 분산을 갖늗다
- 비상관성 : 잔차들끼리 상관이 없어야 한다
- 정규성, 잔차가 정규분포를 잘 따르고 있는지 확인하는 그래프
- 잔차들이 그래프 대각선 상에 있어야 이상적임
- Normal Q-Q 그래프를 보면 y축이 표준화된 잔차이고 마름모로 찍힌것들이 잔차로 대각선모양으로 쭉 있는것이 정규성을 갖는다. 육안으로 봤을 때 완전한 직선인지 아닌지 판단 어려움. 현재 그래프처럼 끝이 기울어지거나 영역을 좀 벗어나 있거나 하는 모양이 나오면 정규성을 만족하지 않는다
- 등분산성, y축이 표준화 잔차를 나타내며, 기울기 0인 직선이 이상적임
- Scale-Location 그래프를 보면 y축이 표준화된 잔차이고 빨간색으로 된 곡선이 있다 이 선이 직선으로 나오는 것이 가장 좋은 등분산성을 가진것이라는 의미
※ 이상값(Outliler)
- 숫자와 함께 표시된 것
1-4 Residuals vs Fitted
- Residuals vs Fitted는 선형성, 등분산성에 대해 알아 볼 수 있는 그래프
- 두번째 그래프를 보면 y값의 기울기가 0 인 직선이기 때문에 선형성을 가지고 있다(=이상적이다)고 볼 수 있다
왼쪽 그래프 | 오른쪽 그래프 |
Im(y-x) 회귀식에 대해서 빨간색 선을 봤을 때 기울기가 0인 직선이어야 하는데 기울기가 0이 아닌 U자 모양이고, 점이 전체에 고르게 분포되어 있는것이 아닌 선을 따라서 분포되어있다 그렇기때문에 - Im(y-x)가 선형성, 잔차가 등분산성을 만족하지 않음 - U자 모형으로 제곱항을 넣어 보거나, 비선형으로 변환해 볼 수 있음 => 선형성은 갖고 있지 않지만 제곱항이나 비선형으로 변환해서 y와 x간에 관계가 있을 수 있다는 것을 의미 |
선형성을 나타나는 것은 기울기가 0인 직선이고, 점들의 위치를 봤을 때 점점 증가되고있는 이분산성을 보인다 - 잔차가 등분산성을 만족하지 않음(서로다르다=이분산성) - 분산이 증가하고 있음 - 종속변수를 log로 변환하여 사용 => log는 큰 값을 작게 만드는 역할 |
1-5 Residuals vs Leverage
- 회귀 분석에는 잔차(Residual)의 크기가 큰 데이터가 Outlier가 되는데 이 중에서도 주로 관심을 가지는 것은 Leverage와 Residual의 크기가 모두 큰 데이터임
- Leverage : 종속변수의 값이 예측값에 영향을 나타낸 값
- Cook's distance는 Leverage와 Residual를 동시에 보기 위한 기준으로 그림에서 빨간색 점선으로 표시임
- Leverage가 커지거나 Residual의 크기가 커지면 Cook's distance 값이 커짐
- 일반적으로 1값이 넘어가면 관측치를 영향점(influence points)로 판별
- 이상값은 보이고 있지만 영향값은 없다 Cook's distance가 빨간색 점선으로 표기되어 있어야 하는데 표기되어 있지 않다
- 빨간색 점선으로 Cook's distance가 표시되어 있고 이상값이있고 해당 이상값은 예측값에 영향을 미친다 그러므로 영향점으로 표현할 수 있다
[출처] - EduAtoZ - Programming [빅데이터 분석기사 필기 3과목]
필기) 3과목-06 분석 기법 - 회귀모형 3/3 (0) | 2022.08.16 |
---|---|
필기) 3과목-05 분석 기법 - 회귀모형 2/3 (0) | 2022.08.15 |
필기) 3과목-03 모델 평가 (홀드아웃, 교차검증, 붓스트랩) (0) | 2022.08.14 |
필기) 3과목-02 분석 모형 구축 절차 (0) | 2022.08.13 |
필기) 3과목-01 분석 방법 선정 (0) | 2022.08.13 |