본문 바로가기

데이터 분석 심화/Data Analysis

[Machine Learning] 분산 분석, ANOVA

분산분석은 그룹간의 (평균)비교를 할때 사용하는 통계적 방법론입니다.

익히 알려진 T-test와는 다른 분포를 사용해서 집단을 비교합니다.

이론적 전개와 그에 대한 깊은 이해는 다른 리서치를 통해서도 찾을 수 있기 때문에, 이론적 전개나 anova table해석 등은 생략합니다. 대신에 저는 그 중에서 알아두면 유용할 내용만 적어볼까 합니다.

1. 분산분석은 왜 이름이 '분산' 분석일까?

티테스트(t-test)는 두 집단간의 비교를 할때, t 분포를 이용합니다. t 통계량이 애초부터 분산과 하나도 관계없는 꼴의 형태를 띄고 있지요. ex) t−X^s/n√ t−X^s/n

 

하지만 분산분석(ANOVA test)는 F분포를 이용합니다. F 검정량은 두 집단의 샘플 분산의 비율입니다. 즉, s21s22 s12s22

의 통계량을 갖게 됩니다. 이와 더불어 각 샘플의 자유도와 신뢰수준에 의하여 정확한 F통계량을 갖게 됩니다.

F 검정의 통계량은 분산의 비율을 나타내기 때문에 이름이 분산분석인 셈이죠.

- F분포의 모습

2. 언제 분산분석을 사용할까?

그렇다면 언제 분산분석을 사용하게 될까요? 아래의 그림을 보면, 독립변수의 그룹과 요인의 수로 분석 방법이 달라집니다.

즉, 몇개의 그룹인지 그리고 몇개의 요소인지에 따른다는 얘기입니다.

눈여겨볼점은 t-test는 두 집단의 하나의 요소에 대해서 (주로 평균을) 비교하지만, one-way anova test의 경우 t-test처럼 사용할 수도 있지만, 3그룹 비교에서도 사용할 수 있다는 점이 장점이겠죠.

 

 

요인과 요인수준(그룹 수)에 대해 자세히 예를 들어보겠습니다.

ex)

작업자에 따른 생산량 비교

요인 : 작업자

요인수준(처리) : 작업자 A, 작업자 B, 작업자 C etc..

=> 일원분산분석

작업자와 온도에 따른 생산량 비교

요인 : 작업자 / 온도

요인수준 - 작업자 : 작업자 A, 작업자 B, 작업자 C etc..

요인수준 - 온도 10 , 온도 20, 온도 30 ...

=> n원분산분석

3. 그래서 일원배치? 이원배치? n원배치? 라는것은 결국..

일원, 이원, n원의 차이는 결국 '서로다른 수준의 요인과 그룹수를 비교할때 같은 원리(F분포)를 사용' 하는것으로 정리할 수 있습니다.

그런데 납득이 안가는 부분이 있습니다. 왜 t-test를 여러번 사용해서 비교분석하지 않을까요? 그냥 t-test를 여러번 사용하면 되는 부분일텐데 굳이 아노바테스트를 해서 일을 복잡하게 만드는것일까요?

4. 중복 비교실험에서 비롯되는 신뢰도의 하락

당연한 고민이고, 어쩌면 그게 맞는것같기도 합니다. 하지만 이와같은 생각에는 맹점이 존재합니다. 바로 여러번 중복해서 비교할수록 신뢰도가 하락하는 점이죠.

예를 들어봅시다.

t-test 알파 0.05로 비교실험을 했을때 신뢰도는 (1−α) (1−α)

입니다. 이러한 실험을 두번 반복했다고 합시다. 통계학에서는 두개의 사건이 동시에 일어나는 경우 곱으로 처리합니다. 따라서 이때의 신뢰도는 (1−α)2 (1−α)2

가 됩니다. 한번 비교했을때보다 신뢰도가 감소합니다. (1보다 작은 소수를 제곱하면 값이 줄어들듯이..)

따라서 n번 반복할수록 신뢰도는 감소하고, n이 무한대로갈수록 결국 신뢰도가 0이 되어버리는 현상이 발생합니다.

반면에 F-test 알파 0.05의 경우 집단간의 비교 검정이 단 한번 일어납니다. 즉 이때의 신뢰도는 (1−α) (1−α)

가 됩니다. n개의 그룹을 비교하는 경우 역시 한번의 검정이 일어나기 때문에 신뢰도는 동일합니다.

t-test를 고집하면 이와같은 넌센스가 일어납니다. 분산분석을 무시해서 안되는 부분이기도 하죠.

5. 분산분석의 활용

대표적으로 실험계획법과 같은 분야에서 분산분석을 적극 활용합니다. 또한 회귀분석을 할때도 회귀계수의 유의성 검정을 F-test를 통해 비교합니다. (단순회귀 경우도 포함). 때론 모델간의 차이가 존재하는지를 알기위해서도 사용되기도 합니다. 어플리케이션은 다양하고 방대하기때문에 관심있는부분은 스스로 알아봐야할 것입니다.

참고

[1] https://niceguy1575.tistory.com/51

[2] http://rfriend.tistory.com/131