일반적으로 군집분석의 대상 객체를 표현하는 모든 변수가 사용될 수 있다. 그러나 일반적으로 분석에 사용되는 변수의 질과 획득비용은 서로 반비례한다. 다라서 연구자는 연구환경과 연구목적, 그리고 비용을 고려하여 적절한 군집화변수를 선정하여 사용하는 것이 필요하다. 요인분석과 군집분석은 행이 레코드(응답자)이고 열이 변수인 일반적인 자료에서 행과 열 중에 어느 것을 기준으로 무엇을 묶어주는가에 따라 구분할 수 있다. 간단히 설명하면, 변수 간의 상관관계 정보를 이용하여 관계가 깊은 변수들, 즉 유사한 속성정보를 내포하고 있는 변수들끼리, 즉 열을 붂어주는 분석기법이 요인분석이다. 반면에, 군집분석은 변수에 관한 정보를 이용하여 자료의 레코드 간의 거리를 추정하여 이를 바탕으로 유사한 변수값들을 갖는 응답자끼리, 즉 행을 묶는 기법이다. 따라서 요인분석은 통계적인 분석방법이고, 군집분석은 거리를 기준으로 하는 수리적인 분석방법이다. 일반적으로 군집분석에 사용하는 모든 변수는 표준화해서 사용해야 한다. 예를 들어, 몸무게나 키 등의 변수를 이용해서 군집분석하고자 하는 경우, 몸무게가 kg이나 g중에 무슨 단위로 입력되었는가에 따라 사람들 간의 거리에 미치는 영향이 달라진다. 즉, 변수의 측정단위 크기에 따라 거리측정치는 큰 영향을 받게 된다. 따라서 사용하는 변수의 측정단위와 관계없이 그 차이에 따라 일정하게 거리를 측정하는 것이 필요하고, 이를 위해서 변수를 표준화하여 사용하는 것이 필요하다. 변수를 표준화한다는 것은 모든 변수의 단위를 표준편차단위로 바꾸는 것을 의미한다. 그러나 표준화함으로써 잃게 되는 정보도 있으므로 항상 표준화가 적절한 것은 아니다. 예를 들어, 응답자 간의 응답차이가 많다는 것은 그만큼 응답자를 구분하는 데에 중요한 변수임을 의미한다. 만일 군집화변수들을 표준화하면 이들 변수 간의 중요성이 모두 같아진다는 단점이 있으므로 연구자는 현명하게 판단하여 표준화를 사용해야 한다. 군집분석에서는 분석방법 자체에서 군집의 수를 선정하는 방법이 없다. 군집의 수는 계층적 군집분석에서 얻게 되는 덴다이어그램을 보고 연구자가 결정하는 것이 가장 바람직하다. 그러나 데이터의 양이 많은 경우에는 계층적 군집분석을 수행하기가 어렵다. 따라서 이러한 경우에는 전체 데이터를 모두 사용하기보다는 일부를 표본으로 추출한 다음, 이를 이용하여 계층적 군집분석을 한 다음 적당한 군집의 수에 대한 아이디어를 얻는 것이 바람직하다. 이렇나 방법으로 군집의 수를 결정한 다음, 전체를 대상으로 비계층적 군집분석을 수행하도록 한다. 결론적으로 군집의 수에 대한 결정은 표본을 추출해서라도 계층적 군집분석을 일차적으로 수행하여 얻은 덴다이어그램을 이용하여 판단하는 것이 바람직하다. 그러나 경우에 따라서는 연구의 목적상 특정한 수의 군집이 필요한 경우도 있다. 이러한 경우에느 연구자가 판단하여 임의로 군집의 수를 정할 수 있다. 이 외에도 군집화된 결과를 보고 군집화에 사용된 변수의 통계적 유의성을 검정하여 유의한 변수와 군집의 수를 조정하는 경우도 있다. 일반적으로 거리 측정에 사용할 수 있는 변수이어야 한다. 따라서 등간척도나 비율척도로 측정된 변수이어야 한다. 그러나 명목척도로 측정된 변수도 군집분석에 사용할 수 있다. 물론 직접적인 사용은 불가능하고 명목변수를 더미코딩하여 여러 개의 이산 변수로 바꾼 다음 사용해야 한다. 이산변수는 어떤 측면에서 보면 등간척도와 간다. 따라서 명목변수를 이산변수로 바꾸어 군집분석을 실행하면 된다. 그러면 몇 개의 이산변수를 사용하여야 하는가? 일반적인 더미코딩에서 사용하는 더미변수의 수는 명목척도의 단계 수에 따라 달라진다. 회귀분석의 경우에는 가능한한 변수의 수를 적게 하는 것이 바람직하므로 단계의 수가 n이라 하면 기준이 되는 단계를 정한 다음 n-1개의 더미변수를 만들어 사용한다. 그러나 군집분석의 경우에는 이러한 변수의 개수에 크게 영향을 받지 않을 뿐더러 기준이 되는 단계를 설정하기가 어렵기 때문에 명목변수의 구준 수만큼 더미변수를 만들어 사용하는 것이 바람직한다. 일반적인 경우에는 변수의 가중치가 일정하게 주어진다. 즉, 거리를 측정하는 데에 있어서 모느 변수의 중요도가 동등하게 평가된다. 예를 들어, 명목척도로 측정된 변수를 여러 개의 더미변수를 이용하여 군집분석에 사용할 경우 하나의 변수가 여러 개로 만들어져 그 변수의 중요성이 몇 배로 증가하게 된다. 따라서 명목척도로 측정된 변수를 군집분석에서 사용하고자 하는 경우 특히 주의해야 한다. 또한 변수를 표준화하여 사용하지 않을 경우에는 변수의 분산 정도에 따라 가중치가 자동적으로 다르게 책정될 수 있으나, 변수를 표준화하여 사용할 경우 변수들의 가중치는 모두 일정하게 된다. 따라서 연구자는 변수의 선정뿐만 아니라 표준화 및 명목변수 사용에 대한 결정에 신중해야 한다. 가장 간단한 방법으로 변수의 가중치를 연구자가 임의로 정하는 방법이 있다. 그러나 이렇게 하기 위해서는 연구자가 명확하게 어느 변수가 중요한지를 미리 파악하고 있어야 한다. 또한 선정된 변수들 간에는 가능한 한 서로간의 상관관계가 적은 변수들을 군집화 변수로 사용해야 한다. 에를 들어, 왼손길이와 오른손길이가 모두 군집분석에 사용된다면 이는 문제가 있다. 이러한 입력변수들 간의 상관관계 문제느 회귀분석에서 다중공선성에 관한 문제와 유사하다.