살맛나는 인생 ♬

상관분석의 정의 본문

경영 마케팅 정보

상관분석의 정의

samickee 2019. 10. 22. 16:11

연관성분석은 2개의 변수가 서로 독립적인가 아니면 이들 간에 어떠한 연관성이 존재한느가를 파악하는 분석방법으로 변수의 척도에 따라 교차분석과 상관분석이 있다. 일반적으로 분석하고자 하는 변수가 명목척도나 설열척도로 측정된 변수일 경우에는 교차분석으로 변수 간의 독립성 여부를 파악하며, 등간이나 비율척도로 측정된 변수인 경우에는 상관분석으로 연관성 정도를 분석한다. 그러나 경우에 따라서는 서열척도로 측정된 변수도 상관분석으로 분석할 수도 있다. 따라서 상관분석은 다시 서열척도일 경우와 등간이나 비율척도일 경우로 나누어 지는데, 변수의 척도가 서열척도일 경우는 스피어만 서열상관분석을, 등간이나 비율척도일 경우는 피어슨 상관분석을 이용하여 변수간 연관성 정도를 분석한다. 또한 상관분석은 두 변수에 공통으로 영향을 미치는 제3의 변수에 대한 통제 여부에 따라 일반적인 상관분석과 편상관분석으로 구분된다. 예를 들어, 분석하고자 하는 두 변수에 공통으로 영향을 미치는 제3의 변수가 존재할 경우, 제3의 변수의 영향을 통제하지 않고 분석하는 방법이 일반적인 상관분석이며, 제3의 변수의 영향을 제거하여 두 변수 간의 순수한 상관관계만을 분석하는 방법이 편상관분석이다. 상관분석은 변수들 간의 연관성을 파악하기 위해 사용한는 분석기법 중의 하나로 변수간의 선형관계 정도를 분석하는 통계 기법이다. 예를 들어, 광고나 판촉비용 등의 매출액과 선형적인 연관관계가 있는지를 알아보고자 하는 경우, 혹은 이들 중에 어느 것이 매출액과 선형적인 연관관계가 더 강한지를 분석하고자 하는 경우, 상관분석을 이용하면 간단하게 분석할 수 있다. 상관분석은 두 변수 간의 공분산분석으로부터 시작한다. 공분산은 동시에 2개의 변수값들을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느 정도 산포되어 있는가를 나타내는 지표이다. 예를 들어 X축과 Y축을 변수값으로 하는 좌표평면상에 두 변수값을 동시에 갖는 개별 관측치들을 점으로 나타내는 산포도를 그려보면, 구 변수 간의 관계, 즉 공분산을 어느 정도 시각적으로 파악할 수 있다. 그러나 공분산을 파악할 수 있는 산포도는 두 변수가 측정된 척도의 크기에 따라 그 모양이 달라진다. 따라서 공분사이 척도 크기에 의한 영향을 받지 않도록 각 변수를 그 변수의 표준편차로 나누어 표준화시킨 변수값을 사용하여 공분산을 구할 수 있는데, 이 값이 바로 상관계수가 된다. 상관분석은 바로 이렇게 표준하된 공분산값인 상관계수를 구하는 분석을 말한다. 상관분석의 경우에도 일반적인 다른 통계분석에서와 마찬가지로 모집단 전체를 대상으로 하는 분석과 모집단에서 추출한 표본을 대상으로 하는 분석이 있다. 그러나 실제적으로는 이들 간에 차이는 거의 없고, 분산을 구하는 과정에서 사용되는 사유도의 차이만 있을 뿐이다. 따라서 모집단을 대상으로 하는 상관계수와 표본을 대상으로 하는 상관계수 사이에는 큰 차이가 없다. 일반적으로 분산과 공분산, 그리고 상관계수는 각각 var(X), cov(X, Y) 그리고 corr(X, Y)로 표시하기도 한다. 그러나 이렇게 나타내는 경우에는 모집단의 모수인지 표본의 통계량인지 명확하게 구분할 수 없다. 따라서 이들을 보다 구체적인 기호로 나타내고자 할 경우에는 모집단의 모수와 표본의 통계량으로 구분하여 서로 다르게 표기할 수 있다. 통계학에서는 일반적으로 표본을 추출하여 통계량을 구하고 이를 이용하여 추론하는 것을 전제로 하기 때문에 본 장에서도 모집단보다는 표본통계량을 나타내는 기호들을 시용하여 상관분석을 설명하고자 한다. 그러나 만일 모집단을 분석한 결과로 나타내고자 하는 경우에는 표본통계량에 대응하는 모수를 나타내는 부호나 식을 사용하면 된다. 일반적으로 두 변수 사이의 연관성에 관한 분석은 두 변수의 분포를 동시에 고려해야 한다. 이 경우 두변수 간의 공통된 분포를 나타내는 분산을 일반분산과 구분하여 공분산이라 하며, 이러한 공분산은 두 변수 간의 선형적 연관성을 나타내는 대표적인 지표가 된다. 공분산은 일반분산과 유사한 개념으로 관측치들이 평균으로부터 산포되어 있는 정도를 나타내는 값이다. 일반적으로 분산은 하나의 변수에 대하여 측정한 관측치가 변수의 평균으로부터 떨어져 있는 정도를 나타내는 편차를 제곱한 값의 평균, 즉 편차 제곱의 평균이다. 이에 반하여 공분산은 하나가 아닌 2개의 변수값을 동시에 갖는 관측치의 각 변수에 대한 평균과의 편차를 구한 다음 이들을 서로 곱한 편차곱의 평균이다. 예를 들어, 통계학을 수강하는 60명 학생들의 키와 몸무게를 측정하여 키와 몸무게의 공분산을 구하고자 하는 경우, 공분산은 학생 개인의 몸무게와 반의 평균 몸무게 간의 편차와 개인의 키와 반의 평균 키 간의 편차를 곱한 값들의 평균이 된다. 한 변수의 분산을 좌표평면 상에 표시하기 위해서는 평면상의 X축과 Y축 모두를 같은 변수를 나타내는 것으로 하고, 변수의 평균을 기준으로 좌표평면을 4등분하면 4개의 사분면이 형성된다. 관측치들을 사분면상에 나타내면 1사분면과 3사분면을 통과하는 대각선 위에 모든 관측치들이 존재하게 된다. 이때 대각선상에 있는 관측치들이 평균을 중심으로 넓게 퍼져 있느냐 좁게 모여 있느냐에 따라서 분산의 크고 작음을 알 수 있다. 일반적으로 편차는 관측치가 평균을 중심으로 어느 쪽에 있는가에 따라 양수 혹은 음수가 될 수가 있다. 즉, 분산을 나타내는 그림에서 1사분면에 있는 관측치들의 편차는 양의 값이고, 3사분면에 있는 관측치들의 편차는 음의 값을 갖는다. 그러나 편차를 제곱하여 구하는 분산은 항상 양의 값이며, 다만 평군을 중심으로 대각선상에 퍼져 있는 정도가 클수록 그 값이 크다.