Ein Werkzeug zur partiellen syntaktischen Analyse deutscher Textkorpora

Oliver Wauschkuhn

University of Stuttgart, Institut für Informatik
Breitwiesenstr. 20--22
D-70565 Stuttgart, Germany
e-mail: Oliver.Wauschkuhn@informatik.uni-stuttgart.de


Abstract

For linguistic explorations of text corpora a robust parsing tool was developed for partially analyzing unrestricted German texts. An analysis of a newspaper corpus consisting of about 72,000 sentences (1.6 millions of words) yielded partial syntactic descriptions for 85.7% of all sentences taking 1.3 seconds per sentence. In this paper the parsing method working in two steps is presented as well as its implementation with a chart parser. Furthermore the parsing results for the newspaper corpus are described in detail.

Zusammenfassung

Für die linguistische Erschließung von Textkorpora wurde ein robustes System zur partiellen syntaktischen Analyse nichtrestringierter deutscher Texte entwickelt. Die Analyse eines Zeitungskorpus aus ca. 72000 Sätzen (1,6 Mio. Wörter) mit diesem Werkzeug ergab eine Abdeckung von 85,7% aller Sätze. Die durchschnittliche Parsedauer betrug 1,3 Sekunden pro Satz. In diesem Beitrag wird das zweistufige Analyseverfahren und seine Implementierung unter Verwendung eines Chart-Parsers vorgestellt. Außerdem werden die Ergebnisse der Korpusanalyse beschrieben.