Architectures enabling scalable Internet search

Uhl, Axel; Lichter, Horst

doi:HT013902477

Architectures enabling scalable Internet search

Uhl, Axel (Author)

2004

Verantwortlichkeitsangabevorgelegt von Axel Uhl

ImpressumAachen : Publikationsserver der RWTH Aachen University 2004

UmfangX, 144 S. : graph. Darst.

Aachen, Techn. Hochsch., Diss., 2003

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Lichter, Horst (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2003-12-04

Online
URN: urn:nbn:de:hbz:82-opus-7273
URL: https://publications.rwth-aachen.de/record/59246/files/Uhl_Axel.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
Informationssystem (Genormte SW) ; Ereignisgesteuertes System (Genormte SW) ; Integration (Genormte SW) ; Benachrichtigungsdienst (Genormte SW) ; Benutzerorientierung (Genormte SW) ; Informatik (frei) ; Internet Search (frei) ; Modeling (frei) ; Model-Driven Architecture (frei) ; Bandwidth Model (frei) ; UML (frei) ; Search Infrastructures (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Die große Menge der Internet-Inhalte wird im wesentlichen erst durch Suchmaschinen beherrschbar, die es den Anwendern ermöglichen, Anfragen über das Web in ein Suchformular einzugeben. Die dabei erhaltenen Ergebnisse verweisen auf die gefundenen Internet-Inhalte, etwa in Form von URLs, die gefundene HTML-Seiten referenzieren. Die Qualität dieser Suchmaschinen leidet allerdings an zwei konzeptionellen Problemen. Der Umfang der suchbar zu machenden Inhalte wächst schneller als die Bandbreite, die zu ihrer Indizierung zur Verfügung steht, und ein großer und wachsender Teil ist im {em Deep Web} glqq verstecktgrqq und beispielsweise nur über HTML-Formulare zugreifbar und somit schwer für Suchmaschinen zugänglich und indizierbar. Die hier vorgestellten Ergebnisse zeigen, daß diese Probleme gelöst werden können, indem das Paradigma, nach dem Suchmaschinen funktionieren, umgekehrt wird: Inhaltsanbieter müssen die Suchbarmachung ihrer Inhalte aktiv unterstützen. Dies führt in der Folge zu einer verteilten Architektur, die besser skaliert als der zentralistische Ansatz, den heutige Suchmaschinen verwenden und der desweiteren das Deep Web suchbar macht. Es wurde ein UML-Modell der verteilten Architektur zur Internet-Suche erstellt und dann beispielhaft in Java implementiert. Dadurch wurde die Umsetzbarkeit der vorgestellten Konzepte überprüft. Die Skalierbarkeit der Lösung wurde durch ein formales Modell zum Bandbreitenkonsum einer speziellen Klasse verteilter Suchalgorithmen, wie sie die vorgeschlagene Architektur verwendet, bewiesen. Das verbleibende Problem der Erstellung von Inhalten, die zur vorgeschlagenen Architektur passen, wurde für bestehende und neue Inhalte unterschiedlich angegangen. Bereits bestehende Inhalte werden durch Adapter an die Architektur angepaßt, was anhand von verschiedenen Prototypen gezeigt wurde. Neue Internet-Anwendungen können durch Anwendung der von der Object Management Group eingeführten {em Model-Driven Architecture} suchbar gestaltet werden. Es wurde ein Metamodell zusammen mit einem entsprechenden UML-Profil definiert, mit dem die Suchbarkeit von Anwendungen in kompakter Form spezifiziert werden kann. Es wurde gezeigt, wie mittels Modelltransformationen große Teile des Codes, der die spezifizierte Suchbarkeit implementiert, automatisch aus den diesem Metamodell entsprechenden Modellen generiert werden können.

The vast amount of Internet content becomes manageable mainly by means of search engines that allow users to enter queries into a web form and receive as result a list of matches that refer to Intenet content elements, such as the URLs identifying matching HTML pages. However, the quality of these search engines suffers from two conceptual problems. The content volume grows faster than the bandwidth available to index it, and a large and growing share is ``hidden'' in the {em deep web}, e.g. behind HTML forms, making it hard to reach and index by search engines. The work presented here shows that these problems can be overcome if the paradigm of Internet search is reversed: content providers have to assist in making their content searchable. This leads to a distributed architecture that scales better than the central approach that current search engines implement, and that makes the deep web searchable. A UML model of the distributed search architecture was created and then implemented using Java, verifying the feasibility of the concepts. The scalability of the solution was proven using a formal model of the bandwidth consumed by a specific class of distributed search algorithms, as used by the suggested architecture. The remaining problem of how to create the content so that it complies with the suggested search architecture was tackled in two ways. Adapters for existing content can be created with little effort, as has been shown by a prototype. New Internet applications can be made searchable using the Model-Driven Architecture approach as introduced by the Object Management Group. A metamodel with a corresponding UML profile was defined that allows for a compact specification of an application's searchability. Using model transformations, a large share of the code that implements the specified searchability can be generated automatically from the models expressed in this metamodel.

Fulltext:
PDF