Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-23473
Titel: Statistical Parsing for German : modeling syntactic properties and annotation differences
Alternativtitel: Statistische Syntaxanalyse für Deutsch : Modellieren der syntaktischen Eigenschaften und der Anmerkungsunterschiede
VerfasserIn: Dubey, Amit
Sprache: Englisch
Erscheinungsjahr: 2005
Quelle: http://homepages.inf.ed.ac.uk/adubey/research/thesis.pdf
Kontrollierte Schlagwörter: Linguistische Datenverarbeitung
Syntaktische Analyse
Parser
Freie Schlagwörter: Computerlinguistik
Statistische Syntaxanalyse
Deutsche Sprachverarbeitung
Computational linguistics
Statistical parsing
German language processing
DDC-Sachgruppe: 400 Sprache, Linguistik
Dokumenttyp: Dissertation
Abstract: Die bisherige Forschung im Bereich des statistischen Parsing ist weitgehend anglozentrisch: neue Modelle werden in der Regel zuerst für das Englische vorgeschlagen und erst dann für andere Sprachen getestet. Parser für neue Baumbanken werden üblicherweise nicht neu entwickelt, sondern es wird lediglich ein Parsingmodell für das Englische auf die neue Sprache angepasst. In dieser Dissertation wird gezeigt, dass viele der Annahmen, die für das Parsing des Englischen gemacht werden, sich nicht ohne Weiteres auf andere Sprachen und Baumbanken übertragen lassen. Die Gründ dafür sind Unterschiede in der linguistischen Struktur und den Annotationschemata der Baumbanken. Insbesondere zeigen wir, dass lexikalisierte Parsingmodelle, die ursprünglich für das Englische vorgeschlagen wurden, sich nicht gut auf das Deutsche übertragen lassen. Selbst wenn die Modelle abgeändert werden, um Unterschieden in der Annotation Rechnung zu tragen, sind die Leistungsgewinne durch Lexikalisierung im Deutschen deutlich geringer als im Englischen. Dieses Ergebnis dient uns als Ausgangspunkt für eine weitreichende Untersuchung der Rolle, die die linguistischen Unterschiede zwischen den beiden Sprachen beim statistischen Parsing spielen. Unsere Ergebnisse zeigen, dass die Berücksichtigung von linguistischen Eigenschaften des Deutschen weit wichtiger als Lexikalisierung sind. Zum Beispiel stellt sich heraus, dass ein relativ einfaches Modell des deutschen Kasussystems sich besser zur Bewältigung von Ambiguitäten eignet als ein lexikalisiertes Modell. Weitere Untersuchungen zeigen außerdem, dass die Ambiguität der lexikalischen Kategorien im Deutschen für eine beträchtliche Anzahl von Parsingfehlern verantwortlich ist. Wir schlagen daraufhin ein Morphologiemodell vor, das aber nur eine unzureichende Verbesserung der Parsingleistung vorweisen kann. Eine Fehleranalyse zeigt jedoch, dass ein ideales Morphologiemodell die Parsingleistung deutlich verbessern würde, da es die häufig auftretende Verb/Adjektiv-Ambiguität auflösen könnte. Des weiteren schlagen wir ein Modell von langen Abhängigkeiten vor und zeigen, dass dieses Modell die Auflösung von Wortstellungambiguitäten im Deutschen deutlich verbessert. Wir konstatieren auch, dass die verwendete Evaluationsmetrik die Parsingleistung wesentlich beeinflusst: Lexikalisierte Modelle erzielen eine deutlich bessere Leistung, wenn eine Dependenzmetrik angewandt wird. Unlexikalisierte Modelle dagegen erzielen eine bessere Leistung unter Verwendung einer Konstitutentenmetrik. Andere Faktoren scheinen darüberhinaus einen Einfluss auf die Parsingleistung zu haben: je nach verwendetem Suchalgorithmus oder Glättungsschema kommen potentiell wichtige Disambiguierungsmerkmale nicht zur Geltung, und die Leistung des Modells fällt ab. Das beste in dieser Dissertation entwickelte Modell erzielt eine Parsingleistung, die bisher auf dem NEGRA- und TIGER-Korpus unerreicht ist. Das Modell erzielt eine Konstituenten-F-Metrik von 76.2 auf NEGRA und 79.5 auf TIGER. Desweiteren erzielt es eine Dependenz-F-Metrik von 84.0 für NEGRA und 86.2 für TIGER.
Statistical parsing research can be described as being anglo-centric: new models are first proposed for English parsing, and only then tested in other languages. Indeed, a standard approach to parsing with new treebanks is to adapt fully developed English parsing models to the other language. In this dissertation, however, we claim that many assumptions of English parsing do not generalize to other languages and treebanks because of linguistic and annotation differences. For example, we show that lexicalized models originally proposed for English parsing generalize poorly to German. Even after modifying the models to account for annotation differences, we find the benefit of lexicalization to be far less than in English. With this as a starting point, we take a closer look what effect that linguistic differences between English and German have on statistical parsing results. We find that a number of linguistic elements of German play a more crucial role than lexicalization. For example, adding a relatively simple model of the German case system to parser accounts for more ambiguity than a complex model including lexicalization. Further studies show that lexical category ambiguity accounts for a surprising amount of parsing mistakes, and while a model of morphology we develop gives mixed results, an error analysis suggets that a correct model of morphology would help with resolving harmful and common verb/adjective ambiguities. In addition, we offer a preliminary model of long-distance dependencies, showing this model helps greatly in resolving ambiguities caused by German free word order constructions. We also find that the choice of evaluation metric can have a profound impact on parsing performance: it appears that lexicalized models perform better on dependency-based metrics whereas unlexicalized models perform better on labelled bracketing metrics. Other seemingly arbitrary choices also affect parsing results: the choice of search and smoothing algorithm can potentially obscure helpful linguistic disambiguation cues. The best performing model we develop sets the state-of-the-art performance on the NEGRA and TIGER corpora, with labelled bracketing scores of 76.2 on NEGRA and 79.5 on TIGER. Furthermore, this parser scores 84.0 on dependencies on the NEGRA corpus, also the best reported performance on that corpus, and 86.2 on the TIGER corpus.
Link zu diesem Datensatz: urn:nbn:de:bsz:291-scidok-4997
hdl:20.500.11880/23529
http://dx.doi.org/10.22028/D291-23473
Erstgutachter: Crocker, Matthew
Tag der mündlichen Prüfung: 17-Feb-2005
Datum des Eintrags: 10-Mär-2006
Fakultät: P - Philosophische Fakultät
Fachrichtung: P - Sprachwissenschaft und Sprachtechnologie
Ehemalige Fachrichtung: bis SS 2016: Fachrichtung 4.7 - Allgemeine Linguistik
Sammlung:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:
Datei Beschreibung GrößeFormat 
thesis.pdf1,02 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.