Automatische Verarbeitung der Morphologie des Albanischen

Language
de
Document Type
Doctoral Thesis
Issue Date
2016-01-11
Issue Year
2015
Authors
Kabashi, Besim
Editor
Publisher
FAU University Press
ISBN
978-3-944057-43-9
Abstract

Today, natural language processing is essential and indispensable in many areas, e.g. when searching the Internet. One important element for many applications in that area is a tool for the automatic recognition and production of word forms. Such a tool can be used in many areas, either as a standalone application, e.g. for didactic purposes or for the morphological annotation of corpora, or as a component in larger systems, e.g. for the syntactic analysis of texts.

The system presented here is an automatic tool for the following tasks: analysis of word spelling, lemmatization, POS-tagging, full morphological analysis of word forms. The system can also be used in reverse mode, i.e. to generate word forms from a given lemma and its morphological attributes.

The system covers the inflection of Albanian nouns, verbs, adjectives, numerals, adverbs and pronouns as well as the non-inflectional parts of speech and the most frequent types of word formation. It has been tested against several test lists compiled from a variety of sources.

With these attributes, the morphology tool is suited for a wide range of use cases in Albanian natural language processing. Besim Kabashi was born in Istog, Kosovo, in 1972. He studied Natural Language Processing, German Linguistics and Computer Science at the Friedrich-Alexander-University of Erlangen-Nuremberg, Germany. In 2003 he received his Magister Artium (M.A.) degree. Since that time he has been working as a researcher at the Professorship for Computational Linguistics respectively Corpus Linguistics, where he has been teaching and pursuing his research. In 2014 he received his Ph.D. degree in Computer Science from the Friedrich-Alexander-University of Erlangen-Nuremberg. His main areas of research have been automatic word recognition and production. He has authored and co-authored papers on a variety of topics in Natural Language Processing, including automatic word recognition and production, computational lexicography, knowledge resources, corpus linguistics and statistics.

Abstract

Die automatische Sprachverarbeitung hat seit ihren Anfängen deutlich an Bedeutung gewonnen. Sie ist heute in einigen Bereichen wie z.B. bei der Suche im Internet unverzichtbar und nicht mehr wegzudenken. Ein Werkzeug für die automatische Wortformerkennung und -produktion ist ein grundlegender Baustein für viele Anwendungen. Sie kann in vielen Bereichen eingesetzt werden, sowohl als eigenständige Anwendung, z.B. für didaktische Zwecke oder zur morphologischen Annotation von Korpora, als auch als unterstützende Komponente für Anwendungen wie die syntaktische Analyse von Texten.

Das hier vorgestellte System ist ein automatisches Werkzeug für folgende Aufgabengebiete: Analyse der Rechtschreibung, Lemmatisierung, Annotation der Wortarten, vollständige morphologische Analyse von Wortformen. Das System kann auch im umgekehrten Modus verwendet werden, d.h. Wortformen aus einem gegebenen Lemma und seinen morphologischen Eigenschaften generieren.

Das System deckt die Flexion der albanischen Nomina, Verben, Adjektive, Numeralia, Adverbien und Pronomina ab, sowie die nicht flektierenden Wortarten und die häufigsten Typen der Wortbildung. Es wurde mit einer Reihe von Testlisten aus unterschiedlichen Quellen getestet.

Mit diesen Eigenschaften eröffnet sich für das Morphologie-Werkzeug ein breites Spektrum von Anwendungsfällen in der maschinellen Verarbeitung der albanischen Sprache. Besim Kabashi wurde 1972 in Istog, Kosovo, geboren. Er studierte Linguistische Informatik, Germanistische Linguistik und Informatik an der Friedrich-Alexander-Universität Erlangen-Nürnberg und schloss sein Studium im Jahr 2003 mit dem akademischen Grad Magister Artium (M.A.) erfolgreich ab. Seitdem ist er Wissenschaftlicher Mitarbeiter an der Professur für Computerlinguistik bzw. Korpuslinguistik, im Studienfach Linguistische Informatik, wo er sich sowohl mit Lehre als auch Forschung beschäftigt. Er wurde 2014 im Fachbereich Informatik promoviert und erwarb den akademischen Grad eines Doktors der Ingenieurwissenschaften (Dr.-Ing.). Sein Forschungsgebiet war hauptsächlich automatische Wortformerkennung und -produktion. Er veröffentlichte sowohl selbstständig als auch in Zusammenarbeit mit anderen Verfassern eine Reihe von Artikeln im Bereich Linguistische Informatik über automatische Wortformerkennung und -produktion, Computerlexikographie, Wissensressourcen, Korpuslinguistik und Statistik.

Series
FAU Forschungen, Reihe B, Medizin, Naturwissenschaft, Technik
Series Nr.
6
Notes
Parallel erschienen als Druckausgabe bei FAU University Press, ISBN (Druckausgabe) 978-3-944057-40-8
DOI
Faculties & Collections
Zugehörige ORCIDs