빅데이터 분석 기사

필기) 2과목-22 가설검정 - 가설 검정의 절차, 가설의 종류

37_KIM 2022. 8. 12. 17:29

 

 

S2-04 통계 기법 이해

 

1. 중심경향 통계량, 산포도

2. 표본 추출 방법

3. 확률 분포

4. 표본 분포

5. 추론 통계

6. 연속형 확률분포 - 졍규분포

 

7-1 가설검정 - 가설 검정의 절차, 가설의 종류

  • 가설검정이란 무엇?

- 연구하고싶은 모집단과 모집단의 특성을 나타내는 숫자인 모수가 있다 모수는 평균이나 분산이 될 수 있다

- 모집단에 대해 모든 데이터를 수집하기 힘들 경우가 있다 그럴 때 모집단에서 몇개의 데이터를 추출하게 되어 표본집단을 만든다 그리고 그 표본에 특징을 나타내는 통계량을 구하고 그 통계량을 이용해서 모수를 추론하게 된다

- 가설검정 : 모집단에 대해 가설 설정 후, 표본관찰을 통해 그 가설의 채택 여부를 결정하는 통계적 추론 방법

 

 

  • 가설검정의 절차

- 가설 설정 : 귀무가설, 대립가설

- 유의수준(α) 설정 : 제 1종 오류의 최대 허용 한계

    - 가설에도 기각이나 채택했을 떄 오류가 있을 수 있다는 것인데 오류 발생을 허용하겠는데 어느정도까지 하겠냐를 설정

- 검정통계량 산출 : 검정통계량으로 p-value 구함

    - 표본에 관찰을 하는게 검정통계량이고 통계값구한다고 생각하면 된다

    - 검정통계량을 구해서 제 1종 오류 발생할 확률 특히 검정통계량 표본에서 제 1종 오류가 발생할 확률인 p값을 구하게된다

- 기각/채택 판단 : p-value < α 일 때 귀무가설 기각

    - 유의수준과 p-value를 비교해서 최대 허용 한계보다 더 작은 값일 때 귀무가설을 기각하고 대립가설을 채택

    - 반대의 상황에서는 대립가설을 기각하고 귀무가설을 채택

 

 

  • 가설의 종류
  • 귀무가설(H0)

- 가설 설정의 대상이 되는 가설, 연구자가 부정하고자 하는 가설- 알고 있는 것과 같음, 변화 없음, 영향력 없음, 연관성 없음, 효과 없음에 대한 가설예) 의사였다면 이 환자는 아픈데가 없다예) 제약회사라면 약의 효과가 없다예) 제품생산하는 사람이라면 제품이 정상이다

 

  • 대립가설(H1)

- 연구자가 연구를 통해 입증/증명되기를 기대하는 예상이나 주장- 귀무가설이 기각되면 채택되는 가설 - 알고 있는 것과 디름, 변화 있음, 영향력 있음, 연관성 있음, 효과 있음에 대한 가설예) 의사였다면 이 확자는 질병에 걸려있어예) 제약회사라면 약의 효과가 있다

예) 제품생산하는 사람이라면 제품이 불량이다

 

 

7-2 가설검정 - 가설검정의 종류

  • 가설검정의 종류
  • 양측 검정 :

- 귀무가설을 기각하는 영역이 양쪽에 있는 검정

 

  • 단측 검정 :

- 좌측 검정 : 귀무가설을 기각하는 영역이 왼쪽에 있는 검정

- 우측 검정 : 귀무가설을 기각하는 영역이 오른쪽에 있는 검정

 

- 확률 분포 그래프

    - X축 : 검정통계량(t, Z, F, x²(카이제곱) 통계량), Y축 : 확률

    - 분포에 따라 모양이 다름 ( 위 그래프처럼 대칭으로된 종모양은 t나 Z분포일 경우, F나 카이제곱은 앞쪽(왼쪽)에서는 확률이 높아지고 뒤로(오른쪽)으로 갈수록 확률이 낮아지는 형태의 그래프)

    - 검정통계량을 사용하여 p-value(제1종 오류 발생 확률)를 구할 수 있음

 

- 그래프에서 기각역은 귀무가설을 기각하는 것이기 때문에 대립가설에서는 채택영역이 된다

 

 

 

7-3 가설검정 - 귀무가설, 대립가설 설정

  • 귀무가설, 대립가설 설정
  • 귀무가설, 대립가설 설정

- 귀무가설은 " 같다, 이상, 이하"의 세 가지 유형이 있음

- 귀무가설의 반대인 대립가설은 "다른다, 작다(미만), 크다(초과)" 의 세 가지 유형이 있음

- 귀무가설 및 대립가설은 모집단의 모수에 대한 추론으로 μ, σ², p를 가설에 사용함 (μ, σ²는 모수에 대한 것, p는 확률에 대한 것)

 

- 핸드폰의 평균 교체 주기는 2년이라고 알려져 있는데, 어떤 전문가는 2년이 아니라고 주장한다. 이에 핸드폰 평균 교체주기가 실제로 어떻게 되는지 검정하려 한다. 가설을 설정해보자

→ 지금까지 그래왔다 내가 그렇게 알고지내왔다 : 핸드폰의 평균 교체 주기는 2년 => 귀무가설

→ 아니다 그렇지 않다 : 어떤 전문가는 2년이 아니라고 주장 => 대립가설

 

 

- A학교 성적의 분산이 7이상으로 알려져 있다. 그런데 기말고사 성적에 따르면 분산이 7보다 작을 수 있다는 의견이 나왔다. 실제 분산에 대해 검정하려 한다. 가설을 설정해 보자

→ A학교 성적의 분산이 7이상으로 알려져 있다. => 귀무가설

분산이 7보다 작을 수 있다는 의견이 나왔다. => 대립가설

 

 

- X매장의 제품 분실율은 5% 이하로 알려져 있다. 그러나 재고 조사 결과 분실율이 5%보다 더 클 수 있다는 의견이 나왔다. 이에 실제 분실율에 대해 검정하려 한다. 가설을 설정해보자. 

→ X매장의 제품 분실율은 5% 이하로 알려져 있다. => 귀무가설

분실율이 5%보다 더 클 수 있다는 의견이 나왔다. => 대립가설

 

- 단측 검정을 판별할 때 대립가설을 보고 판단하는것이 알기 쉽다

위의 예를 보면 분산이 7보다 작을 수 있다는 의견이 나왔다.7미만이므로 왼쪽이니 좌측 검정

분실율이 5%보다 더 클 수 있다는 의견이 나왔다.0.05초과 이므로 오른쪽이니 우측 검정

 

 

 

 

 

[출처] - EduAtoZ - Programming [빅데이터 분석기사 필기 2과목]