Thumbnail Image

Evaluating the Accuracy and Utility of Recommender Systems

Said, Alan

Empfehlungssysteme sind heutzutage ein allgegenwärtiger Bestandteil des World Wide Web. Viele Webseiten nutzen Empfehlungssysteme, um Benutzerfreundlichkeit und das Nutzererlebnis zu verbessern. Während der letzten zehn Jahre wurden viele Fortschritte in der Forschung zu Empfehlungssystemen gemacht, allerdings haben die Methoden zur Evaluierung damit nicht Schritt gehalten. Die Methoden und Metriken zur Evaluation, die derzeit verwendet werden, sind in den meisten Fällen von anderen, verwandten, Forschungsrichtung wie z.B. Information Retrieval oder Statistik, adaptiert. Bis zu einem gewissen Grad klappt dieses Vorgehen auch. Mit den aktuell verwendeten Evaluationsverfahren kann man bewerten, ob eine neue Methode generell funktioniert oder nicht. Man kann allerdings nicht bewerten, ob Verbesserungen wie ein niedrigerer Fehler oder eine verbesserte Genauigkeit in der realen Anwendung wirklich zu einer verbesserten Benutzerfreundlichkeit oder einem besseren Nutzererlebnis führen. Diese Arbeit beschäftigt hauptsächlich sich mit der Frage, wie man die Evaluation verbessern kann, um besser Vorhersagen machen zu können, ob Verbesserungen eines neuen Empfehlungsalgorithmus auch beim Nutzer ankommen. Wir benennen einige der wichtigsten Konzepte im Zusammenhang mit der Empfehlungsqualität und Nutzerwahrnehmung und zeigen dann, dass die derzeit genutzten Evaluationsverfahren nicht die Qualität von Empfehlung erfassen, wenn der Algorithmus speziell auf Empfehlungen mit höherer Diversität ausgelegt ist. Danach präsentieren wir eine Formalisierung der Magic Barrier, einer oberen Grenze für die beste erreichbare Empfehlungsqualität aufgrund von fehlerhaften oder schwammigen Nutzerfeedbacks. Wir evaluieren die Magic Barrier mittels einer Nutzerstudie, in einer Anwendung zu Filmempfehlungen mit realen Nutzer und Daten. Die in dieser Dissertation präsentierten Ergebnisse führen zu dem Schluss, dass die aktuell verwendeten Evaluierungsmethoden und Metriken nicht Schritt halten mit aktuellen Ergebnissen in der Forschung zu Empfehlungsalgorithmen und der erreichten Qualität. Daraus folgend, werden im Rahmen der Arbeit qualitative Ansätze und deren Anwendung beschrieben, die bei minimaler Einbindung des Nutzers, den tatsächlichen Nutzen eines Empfehlungsalgorithmus einschätzen können.
Recommender systems have become a ubiquitous feature on the World Wide Web. Today, most websites use some form of recommendation to heighten their users' experience. Over the last decade, vast advancements in recommendation have been done, this has however not been matched in the processes involved in evaluating these systems. The evaluation methods and metrics currently used for this have originated in other related fields, e.g. information retrieval, statistics, etc. For most cases, these evaluation processes are able to show how well a recommender system performs - to some point. However, after a certain threshold, it is not often clear whether a lower error, or higher accuracy metric accounts for an actual quality improvement. This dissertation focuses on the research question how can we further estimate whether a measured accuracy level actually corresponds to a quality improvement from the user's perspective, or whether the measured improvement is lost on the end user. We introduce some of the concepts related to recommendation quality and user perception, and continue on to show that currently widely-used evaluation metrics do not capture the quality of recommendation when the algorithm is specifically tuned to offer recommendation of a higher diversity. Following this we present a formalization of the upper limit of recommendation quality, a magic barrier of recommendation, and evaluate it in a real-world movie recommendation setting. The work presented in this dissertation concludes that current recommendation quality has outgrown the methods and metrics used for the evaluation of these systems. Instead, we show how qualitative approaches can be used, with minimal user interference, to correctly estimate the actual quality of recommendation systems.