Modelling temporal patterns in user behaviour

Modelling sequential data is one of the most challenging problems in machine learning research. The object of the investigation can be records of user behaviour, which are analysed to uncover hidden temporal patterns. A broad range of solutions exist for this type of problem, including multi-space hidden Markov models (HMMs). The main strength of this technique is its ability to jointly model features on a discrete and continuous scale, which is a property that conventional HMMs do not possess; therefore, multi-space HMMs are well suited to model temporal patterns in combination with other features.
However, so far,they have not been utilised to build temporal models of user behaviour. Based on a newly developed integrated framework for creating multi-space HMMs, user behaviour is modelled in two fields of research.
By creating HMMs of two phases in user behaviour during a session search, prior qualitative information-seeking models are augmented by a quantitative component. In a series of experiments based on a search engine transaction log, it could be shown that approximately one out of three search sessions reached the second phase, which is characterised by heightened effectiveness and efficiency of user actions. Furthermore, how the search phase model can be used to estimate crucial parameters of a search session is demonstrated; for example, the expected time to find the next relevantdocument.
In the second practical application, the HMM framework’s versatility is highlighted by utilising the models as a classifier to detect rumourous conversations on Twitter and to model their veracity. Thus, this work complements prior research by using tweet stance and time as the only features to build a high recall rumour detection system based on multi-space HMMs. Especially when modelling rumour veracity, the strength of the joint modelling of the temporal component is evident since the multi-space HMMs achieve state-of-the-art results. In further experiments, it is also shown that the models are robust to noise and can provide timely veracity classifications.
Die Modellierung von sequentiellen Daten ist eine der großen Herausforderungen bei der Erforschung von maschinellen Lernverfahren. Gegenstand der Untersuchung können dabei auch Aufzeichnungen von Benutzerverhalten sein, welche analysiert werden, um versteckte zeitliche Muster zu entdecken. Eine Vielzahl möglicher Lösungen für derartige Probleme ist bekannt, eine davon sind mehrräumige Hidden-Markov-Modelle (HMM). Der Vorteil dieser Technologie ist ihre Fähigkeit, diskrete und kontinuierliche Merkmale in einem vereinten Modell abzubilden. Dies ist eine Eigenschaft, welche herkömmliche HMM nicht besitzen. Aus diesem Grund sind mehrräumige HMM besonders gut zur Modellierung von zeitlichen Mustern in Kombination mit anderen Merkmalen geeignet. Bisher wurden sie allerdings noch nicht dazu genutzt, um zeitliche Modelle von Benutzerverhalten zu erstellen. Basierend auf einem neu entwickelten Framework zur Erstellung von mehrräumigen HMM, wird hier das Benutzerverhalten in zwei Anwendungsgebieten modelliert: Durch die Erstellung von HMM, welche zwei Phasen einer Suchsitzung beschreiben, werden vorhergehende Information-Seeking-Modelle um eine quantitative Komponente ergänzt. In einer Experimentalreihe, basierend auf einem Suchmaschinen-Transaktionslog, wird anschließend gezeigt, dass in circa einer von drei Suchsitzungen die zweite Phase erreicht wird, welche von erhöhter Effektivität und Effizienz geprägt ist. Außerdem wird erörtert, wie das Zweiphasenmodell dazu benutzt werden kann, um kritische Parameter der Suchsitzung zu bestimmen, wie etwa die voraussichtlich benötigte Zeit bis zum Finden des nächsten relevanten Dokuments.
Die zweite praktische Anwendung des HMM Frameworks demonstriert dessen Flexibilität, indem die Modelle benutzt werden, um Gerüchte auf Twitter zu erkennen und deren Wahrhaftigkeit zu bestimmen. In diesem Fall ergänzt diese Arbeit die vorhergehenden zu dem Thema, indem nur der Standpunkt eines Tweets sowie dessen Zeitpunkt als Merkmal benutzt wird, um mit Hilfe von mehrräumigen HMM Gerüchte mit hoher Trefferquote zu erkennen. Besonders beim Modellieren der Wahrhaftigkeit zeigt sich die Stärke des vereinten Modells mit zeitlicher Komponente, da die mehrräumigen HMM Ergebnisse auf dem Niveau des neusten Stands der Technik erzielen. In weiteren Experimenten wird außerdem gezeigt, dass diese Modelle robust gegenüber Störungen in den Ausgangsdaten sind und bereits auf Basis von sehr kurzen Beobachtungssequenzen brauchbare Ergebnisse liefern.

Vorschau

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten