분산분석은 집단간의 평균의 차이를 검정하는 분석방법이다. 일반적으로 집단이 2개인 경우에는 t검정으로 집단간 평균차이를 검정할 수 있다. 그러나 집단이 3개 이상인 경우에는 t검정으로 집단간 평균 차이를 한번에 분석하기는 어렵다. 이처럼 집단이 3개 이상인 경우에 집단간 평균 차이를 동시에 비교 검정할 수 있는 방법이 바로 분산분석이다. 즉, 분산분석은 3개 이상의 집단간 평균이 서로 다른지를 검정한느 분석방법이다. 또 다른 각도로 분산분석을 설명하면, 분산분석은 회귀분석과 같이 독립변수가 종속변수에 미치는 영향을 분석하는 방법 중의 하나이다. 이때 독립변수는 집단을 구분하는 이산편수가 되며, 종속변수는 관심의 대상이 되는 값으로서 연속변수여야 한다. 따라서 분산분석은 독립변수로 구분되는 각각의 집단에 속한 관측치들의 평균, 즉 집단간 종속변수값의 평균들이 통계적으로 유의하게 차이가 있는지를 분석하는 것이다. 또한 분산분석에서 독립변수는 집단을 결정짓는 변수로서 경우에 따라 1개 이상의 독립변수가 있을 수 있다. 독립변수가 2개 이상인 경우에는 일반적으로 이들 독립변수들 간에 교차표를 만들어 집단을 나누게 된다. 분산분석은 3개 이상의 집단 간의 평균들이 서로차이가 있는지를 분석하는 방법이다. 그러면 집단 간의 평균들을 비교하는데 왜 분산을 이용하여 분석하고 이를 분산분석이라 하는가? 이에 대한 의문점을 간략하게 설명하면, 집단간 평균들이 서로 다르다는 것은 평균들이 서로 멀리 떨어져 퍼져 있는 정도를 나타내는 분산이 매우 크다는 것을 의미한다. 집단의 평균들이 서로 멀리 떨어져 있어 이들의 분산이 크면 클수록 집단 간의 평균들이 서로 다름을 알 수 있다. 즉, 집단간 평균들의 분산이 클수록 평균들이 서로 다르다. 따라서 집단 평균들의 분산으로 집단간 평균들이 서로 어느 정도 다른지를 파악할 수 있다. 그러면 집단 평균들의 분산이 어느 정도 커야만 집단간 평균들이 서로 다르다고 판단할 수 있는가? 일반적으로 분산의 크기는 측정단위에 따라 크게 달라진다. 또한 측정 대상이 무엇이냐에 따라 분산의 크기를 판단하는 기준이 달라진다. 따라서 단순하게 숫자로 나타난 분산값만으로 분산의 크기 정도를 판단하기는 어렵다. 예를 들어, 키의 분산을 나타내는 경우 m 단위로 측정된 값들의 분산과 mm단위로 측정된 값들의 분산은 크게 다르다. 또한 키의 분산과 몸무게의 분산을 서로 비교한다는 것은 더욱 어렵다. 따라서 단순히 숫자로 표시된 분산값만으로는 집단간 평균들이 서로 어느 정도 다른 지를 판단하기는 어렵다. 평균값들의 차이를 정확하게 파악하기 위해서는 분산의 크기 정도를 평가할 수 있는 상대적인 기준이 필요하다. 즉, 측정 단위와 측정 내용에 무관하게 집단 평균들의 분산 크기를 판단할 수 있는 상대적인 기준이 필요하다. 그러면 집단 평균들의 분산 크기를 상대적으로 평가할 수 있는 기준으로는 무엇이 적합한가? 상대적 평가기준으로는 각 집단 내에 속해 있는 관측치들이 해당 집단의 평균으로부터 어느 정도 퍼져 있느냐를 나타내는 집단내 분산, 다른 말로 집단내 평균제곱이 사용될 수 있다. 이러한 집단내 평균제곱의 크기와 집단간 평균의 분산을 나타내는 집단간 평균제곱의 크기를 비교하여 봄으로써 집단간 평균제곱의 크기를 상대적으로 평가할 수 있다. 따라서 집단내 관측치가 그 집단의 평균으로부터 퍼져 있는 분산, 즉 집단내 평균제곱에 비하여 집단간 평균제곱의 크기가 상대적으로 크면 클수록 집단의 평균들이 넓게 퍼져 있어 서로 명확하게 다르다고 판단할 수 있다. 이들 평균제곱값 간의 상대적 크기는 두 값의 비를 이용해서 파악할 수 있으며, 이때 사용하는 평균제곱값들을 표본으로부터 구했을 경우 표본분산의 비는 통계량 F값이 된다. 이렇게 구한 통계량 F값을 검정통계량으로 하여 집단간 평균의 차이가 통계적으로 유의한지를 검정하는 것이 바로 분산분석이다. 요약하면 분산분석이란 각 집단의 평균들이 서로 달라 넓게 퍼져 있는 정도를 나타내는 집단간 분석, 즉 집단간 평균제곱이 집단내 관측치들의 붓난, 즉 집단내 평균 제곱에 비하여 몇 배나 큰가를 나타내는 통계량 F값으로 집단간 평균의 차이가 통계적으로 유의한지를 검정하는 것이다. 이와 같이 여러 집단간 평균들이 서로 다름을 집단간 분산과 집단내 분산들을 이용하여 비교하고 판단하기 때문에 이를 분산분석이라 한다. 집단내 분산이 클수록 집단별 평균 차이가 통계적으로 유의하게 다를 가능성이 낮아지고, 반대로 집단내 분산이 작을수록 집단별 평균이 통계적으로 유의하게 다를 가능성이 높아지게 된다. 집단간 평균의 차이는 같아도, 즉 평균들의 분산은 같아도 각 집단내에 속한 관측치의 분산 정도에 따라 집단간 평균의 차이가 통계적으로 유의할 수도 있고 유의하지 않을 수도 있다. 집단간 평균의 차이에 대한 검정이 단순히 평균들의 차이에 따라 결정되는 것이 아니라, 집단간 평균드르이 분산과 집단내 관측치들의 분산을 비교하여 집단간 평균차이를 검정한다. 즉, 분산값들을 이용해서 집단간 평균 차이를 검정하게 됨으로써 이를 분산분석이라 한다. 분산분석에서 집단을 구분한느 변수, 즉 독립변수를 요인이라 하고, 이러한 요인의 수준 혹은 범주수에 따라 종속변수는 몇 개의 집단으로 분류된다. 예를 들어, 성별이라는 요인의 범주로 남자와 여자가 있다. 이에 따라 종속변수를 남자와 여자의 집단으로 분류해 볼 수 있고, 계절이 요인인 경우에는 봄, 여름, 가을, 겨울의 4개 집단으로 종속변수값을 분류해 볼 수 있다. 분산분석은 독립변수의 요인 수준에 따라 종속변수값이 얼마나 다른지를 분석하는 것이다. 따라서 분산분석에서 독립변수 역할을 하는 요인은 집단을 구반할 수 있는 명목척도나 서열척도로 측정된 값이어야 하며, 종속변수는 등간척도나 비율척도로 측정된 값이어야 한다. 그러나 부득이하게 등간척도나 비율척도로 측정된 연속변수를 독립변수로 사용해야 한다면, 이러한 연속변수를 특정값을 기준으로 나누어서, 즉 명확하게 구분되는 명목변수로 변환하여 사용하여야 한다. 분산분석을 이용하여 집단간 평균값에 차이가 있는지를 검정하기 위해서는 다음과 같은 몇 가지 가정이 필요하다. 첫째, 처리 효과, 즉 집단을 나누는 독립변수의 개별 수준에 대응하는 모집단들은 정규분포해야 하며 서로 동일한 분산을 가져야 한다. 둘째, 표본으로 추출된 각 집단에 속한 관측리들은 무작위로 추출된 것이며 서로 독립적이어야 한다. 즉, 추출된 관측치들 간에 서로 연관성이 없어야 한다. 그러나 대부분의 경우 이러한 가정이 성립되는지 미리 검정하고 분산분석을 실시하는 경우는 거의 없다. 따라서 이러한 가정들이 맞지 않음을 명확하게 알 수 없는 경우에는 이들 가정들을 크게 고려하지 않는 상태에서 분산분석하는 것이 일반적이다.