Comparison of different proximity measures and classification methods for binary data

Datum

2012

Betreuer/Gutachter

Weitere Beteiligte

Herausgeber

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Verlag

Zusammenfassung

The choice of the similarity coefficient used in clustering could have a great impact on the resulting classification, there is therefore need to study and understand these coefficients better, so as to be able to make the right choice for specific situations. Many studies have been carried out without apparent reason for the choice of the similarity coefficient or clustering method, however, the use of a particular similarity coefficient combined with different clustering methods may give different results. The Dice and Jaccard similarity coefficients have been reported to give very similar results with respect to dendrogram structures, despite the fact that Jaccard is metric while Dice is believed to be non-metric. On the other hand, the Simple matching coefficient, which takes into consideration the negative co-occurrences of the individuals being compared, is known to give a different structure. In this study, these three coefficients were employed in carrying out cluster analysis (CA) using five (Unweighted Pair-Group Mean Arithmetic (UPGMA), Weighted Pair-Group Mean Arithmetic (WPGMA), complete linkage, single linkage and Neighbour-Joining (NJ) clustering methods for simulated and experimental binary data sets. The consensus fork index (CFI) results used to compare the dendrograms showed varying level of similarity for all the CA methods. The NJ and single linkage methods seemed to give the lowest values. Therefore the single linkage method is not suggested as an appropriate method because of its tendency to produce lots of singletons in classifications. In all of the data sets, it was observed that high correlation does not necessarily imply similarity in the topology of a tree, therefore care should be taken in its interpretation. The cophenetic correlation with original distances suggests that the UPGMA method gives consistent results with respect to grouping irrespective of the similarity measure/coefficient. However, the combination of the Jaccard coefficient and the UPGMA method was observed to give a higher cophenetic correlation value for all data. We will therefore recommend the use of UPGMA method and Jaccard coefficient because of its consistency. The MDS and PCA analyses confirmed most of the groupings of the isolates as seen in the dendrograms. The Pair-wise comparison which measures similarity of two individuals and the clustering method, which measures the similarity of groups may both have big impact on the results of classification. Therefore there is need to carefully select these two options depending on the data and purpose of research.


Die Wahl des Ähnlichkeitskoeffizienten, der für das Clustering verwendet wird, könnte einen großen Einfluss auf die resultierende Klassifizierung haben. Daher ist es notwendig, diesen Koeffizienten für ein tieferes Verständnis näher zu untersuchen, um den korrekten Koeffizienten in spezifischen Situationen anzuwenden. Zahlreiche Studien wurden bereits durchgeführt ohne Beachtung des Ähnlichkeitskoeffizienten oder der gewählten Cluster-Methode. Allerdings kann die Wahl eines bestimmten Ähnlichkeitskoeffizienten bei Anwendung unterschiedlicher Cluster-Methoden zu verschiedenen Resultaten führen. Es wurde gezeigt, dass der Ähnlichkeitskoeffizient nach Dice und Jaccard sehr ähnliche Ergebnisse bezüglich Dendrogrammstrukturen liefert, obwohl es sich beim Jaccard um einen metrischen und bei Dice um einen nicht-metrischen Ähnlichkeitskoeffizienten handelt. Der einfache Matching-Koeffizient, der auch gleichzeitiges negatives Auftreten bei zu vergleichenden Individuen mit berücksichtigt, führt bekanntermaßen zu einer anderen Struktur. In dieser Studie wurden die genannten 3 Koeffizienten zur Durchführung von Clusteranalysen (CA) unter Verwendung von fünf Methoden (Unweighted Pair-Group Mean Arithmetic (UPGMA), Weighted Pair-Group Mean Arithmetic (WPGMA), complete linkage, single linkage und Neighbour-Joining (NJ)) für simulierte und experimentelle binäre Datensätze angewandt. Die Ergebnisse des Consensus-Fork-Index (CFI), die zum Vergleich der Dendrogramme genutzt wurden, zeigten unterschiedliche Ähnlichkeit mit den verschiedenen CA-Methoden. Die NJ und single linkage-Methode lieferten die geringsten Werte. Die single linkage-Methode erscheint aufgrund ihrer Tendenz zahlreiche einelementige Mengen in Klassifizierungen zu liefern daher als ungeeignet. Bei allen Datensätzen wurde beobachtet, dass eine hohe Korrelation nicht zwangsläufig in einer Ähnlichkeit der Baumtopologie resultiert, weshalb Vorsicht bei der Dateninterpretation geboten ist. Eine kophänetische Korrelation von Originalabständen bei Anwendung der UPGMA-Methode deutet darauf hin, dass diese konsistente Ergebnisse bezüglich der Gruppierung unabhängig des Ähnlichkeitskoeffizienten liefert. Jedoch wurde stets eine erhöhte kophänetische Korrelation der Daten bei Kombination von Jaccard-Koeffizient und UPGMA-Methode ermittelt. Daher wird die UPGMA-Methode unter Verwendung des Jaccard-Koeffizienten aufgrund ihrer Konsistenz als Methode der Wahl vorgeschlagen. Mittels MDS- und PCA-Analyse wurden die meisten Gruppierungen der Isolate in den Dendrogrammen bestätigt. Paarweiser Vergleich der Ähnlichkeit zwischen zwei Individuen und der Clustermethode zur Untersuchung der Ähnlichkeit zweier Gruppen könnte einen großen Einfluss auf die Klassifizierung der Ergebnisse haben. Aufgrund dessen ist die Entscheidung für die geeignete Methode zwischen beiden Optionen unter Berücksichtigung von Daten und Ziel der Untersuchung zu treffen.

Beschreibung

Inhaltsverzeichnis

Anmerkungen

Erstpublikation in

Sammelband

URI der Erstpublikation

Forschungsdaten

Schriftenreihe

Erstpublikation in

Zitierform