h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Mining and similarity search in temporal databases = Mining und Ähnlichkeitssuche in temporalen Datenbanken



VerantwortlichkeitsangabeHardy Kremer

Ausgabe1. Aufl.

ImpressumAachen : Apprimus-Verl. 2013

UmfangIII, 216, XXVIII S. : Ill., graph. Darst.

ReiheErgebnisse aus der Informatik ; 1


Zugl.: Aachen, Techn. Hochsch., Diss., 2013

Zsfassung in dt. und engl. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2013-10-14

Online
URN: urn:nbn:de:hbz:82-opus-48061
URL: https://publications.rwth-aachen.de/record/229381/files/4806.pdf

Einrichtungen

  1. Fachgruppe Informatik (120000)
  2. Lehrstuhl für Informatik 9 (Datenmanagement und -exploration) (122510)

Inhaltliche Beschreibung (Schlagwörter)
Data Mining (Genormte SW) ; Ähnlichkeitssuche (Genormte SW) ; Wissensextraktion (Genormte SW) ; Zeitreihenanalyse (Genormte SW) ; Cluster-Analyse (Genormte SW) ; Datenstrom (Genormte SW) ; Hochdimensionale Daten (Genormte SW) ; Algorithmus (Genormte SW) ; Zeitreihe (Genormte SW) ; Informatik (frei) ; Temporale Daten (frei) ; Zeitreihen (frei) ; Teilraum Clustering (frei) ; Indexstrukturen (frei) ; Multistep-Architekturen (frei) ; temporal data (frei) ; time series (frei) ; subspace clustering (frei) ; data streams (frei) ; similarity search (frei)

Thematische Einordnung (Klassifikation)
DDC: 004
ccs: H.2.8 * H.2.4 * H.3.3 * I.5.3

Kurzfassung
Neue Erkenntnisse in der Datenbankforschung, insbesondere in den Bereichen des Data Mining und der Ähnlichkeitssuche, und die fortschreitende Entwicklung von Speichertechnologien und Mikroprozessoren ermöglichen die Analyse und Exploration von großen Datenmengen. Während es im Data Mining das Ziel ist, unbekanntes Wissen aus Daten zu extrahieren, behandelt die Ähnlichkeitssuche Techniken des inhaltsbasierten Objektvergleichs. Im Rahmen dieser Aufgaben erfreuen sich temporale Daten einer wachsenden Beliebtheit. Sie zeichnen sich durch ihren hohen Informationsgehalt und ihre zahlreichen Anwendungsmöglichkeiten aus. In dieser Dissertation werden neue Techniken des Data Mining und der Ähnlichkeitssuche für temporale Daten entwickelt. Eine große Herausforderung in der Data-Mining-Forschung ist die Effektivität der vorgeschlagenen Verfahren, die sich in der Qualität der extrahierten Muster äußert. Im Bereich des Zeitreihen-Clustering wird daher eine neue Methode eingeführt, die sich an den Anforderungen von Realdatensätzen orientiert: Das Verfahren erkennt Muster, die in Teilräumen und Teilsequenzen verborgenen sind, und ist in Hinblick auf Messfehler und zeitliche Verschiebungen sehr robust. Im Weiteren werden neue Techniken für die Aufgabe der Clusterabbildung entwickelt, bei der eine Zuordnung zwischen den Clustern zweier Clustermengen gesucht wird. Hierbei werden zwei Anwendungen betrachtet: Die Verfolgung von sich entwickelnden Clustern in raum-zeitlichen Daten und die Evaluierung von Clustering-Ergebnissen in Datenstrom-Szenarien. Systeme der Ähnlichkeitssuche und zahlreiche Data-Mining-Verfahren nutzen in der Regel Distanzfunktionen für den Vergleich von Objekten. Ein sehr effektives, aber auch rechenintensives, Zeitreihen-Distanzmaß beruht auf einem adaptiven Verzerren der Zeitachse. Für dieses Maß werden im Rahmen der Arbeit Techniken entwickelt, die signifikante Laufzeitverbesserungen ermöglichen. Während die Methode des antizipativen Aussortierens bis dato ungenutzte Informationen für ein schnelles Verwerfen von Kandidaten in bestehenden Verarbeitungssystemen verwendet, nutzt die Methode der multiplen Verarbeitung gemeinsame Eigenschaften in Anfragemengen für ein vereintes Aussortieren von Kandidaten. Die in der Arbeit entwickelten Methoden werden experimentellen Analysen unterzogen und im Vergleich zu Konkurrenzverfahren evaluiert. Insgesamt stellen die vorgestellten Ansätze und Resultate einen wesentlichen Fortschritt in den Forschungsgebieten des Data Mining und der Ähnlichkeitssuche auf temporalen Daten dar.

Insights from database research, notably in the areas of data mining and similarity search, and advances in storage and microprocessor technology have enabled users to analyze and explore large-scale datasets. Data mining is the task of extracting previously unknown knowledge from data; similarity search encompasses techniques for finding objects similar by content. A prominent kind of data used in these tasks are temporal datasets, which stand out due to their information richness and their many possible applications. This thesis contributes novel, advanced methods for data mining and similarity search on temporal databases. A major challenge in data mining research is the effectiveness of the approaches, corresponding to the quality of extracted patterns. The thesis addresses this challenge for the mining task of temporal clustering. First, a clustering technique is developed that is specifically designed for the requirements of real world time series. Even in difficult settings with various measurement errors and misalignments between time series, it correctly identifies patterns concealed in temporal or dimensional subspaces of the data domain. Second, new methods for the complex task of mapping clusters between clusterings are contributed, for which two applications are investigated: tracing of evolving clusters in spatio-temporal data and the evaluation of clustering results in data stream scenarios. The core of content-based similarity search systems and many data mining tasks are distance functions measuring the similarity between objects. An effective but also computationally expensive distance function for time series is based on adaptive warping on the time axis. This thesis introduces novel methods for queries under time warping. These methods exploit previously unused information in filter-and-refine frameworks for substantial runtime improvements. The anticipatory pruning technique utilizes distance information from a given filter step for rapid rejection of candidates in the refinement step, while the multiple query approach exploits shared characteristics between queries for joint pruning of candidates. The presented approaches are experimentally analyzed and evaluated with respect to competing solutions. Overall, the techniques and results of this thesis represent a major advance in the research areas of data mining and similarity search on temporal data.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-144351
Datensatz-ID: 229381

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
122510
120000

 Record created 2014-07-16, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)