SPSS TwoStep Cluster - A First Evaluation.

Bacher, Johann; Wenzig, Knut; Vogler, Melanie

SPSS TwoStep Cluster - A First Evaluation.

Files

74_a_04-02.pdf (360.26 KB)

Language

en

Document Type

Working Paper

Issue Date

2004-07-30

Issue Year

2004

Authors

Bacher, Johann

Wenzig, Knut

Vogler, Melanie

Abstract

SPSS 11.5 and later releases offer a two step clustering method. According to the authors’ knowledge the procedure has not been used in the social sciences until now. This situation is surprising: The widely used clustering algorithms, k-means clustering and agglomerative hierarchical techniques, suffer from well known problems, whereas SPSS TwoStep clustering promises to solve at least some of these problems. In particular, mixed type attributes can be handled and the number of clusters is automatically determined. These properties are promising. Therefore, SPSS TwoStep clustering is evaluated in this paper by a simulation study. Summarizing the results of the simulations, SPSS TwoStep performs well if all variables are continuous. The results are less satisfactory, if the variables are of mixed type. One reason for this unsatisfactory finding is the fact that differences in categorical variables are given a higher weight than differences in continuous variables. Different combinations of the categorical variables can dominate the results. In addition, SPSS TwoStep clustering is not able to detect correctly models with no cluster solutions. Latent class models show a better performance. They are able to detect models with no underlying cluster structure, they result more frequently in correct decisions and in less unbiased estimators.

Abstract

SPSS enthält seit Version 11.5 einen Algorithmus zur TwoStep-Clusteranalyse. Dieses Verfahren wurde in den Sozialwissenschaften unseres Wissens nach bisher nicht angewendet. Das ist eigentlich überraschend: Die weit verbreiteten Verfahren der Clusteranalyse, wie k-means und agglomerative hierarchische Verfahren, haben bekannte Schwächen, für die SPSS TwoStep Clustering wenigstens teilweise eine Lösung verspricht: Insbesondere sollen gemischt-skalierte Variablen erlaubt sein und die Anzahl der Cluster automatisch bestimmt werden. Aus diesem Grund wird der neue Algorithmus in diesem Papier mit einer Simulationsstudie evaluiert. SPSS TwoStep ist erfolgreich, wenn die Variabeln quantitativ sind. Für gemischt-skalierte Variablen sind die Ergebnisse jedoch weniger zufriedenstellend. Ein Grund hierfür ist, dass nominalen Variabeln in der Analyse höher gewichtet werden und so verschiedene Variablen-Kombinationen die Ergebnisse dominieren können. Weiterhin findet SPSS TwoStep Cluster, selbst wenn den Daten keine Clusterstruktur zugrunde liegt. Modelle mit latenten Klassen führen hier zu besseren Ergebnissen. Sie erkennen Situationen, in denen keine Clusterstruktur vorliegt, treffen häufiger die richtige Clusterzahl und führen zu weniger verzerrten Schätzern.