Shaker Verlag, Aachen, 1999
Dissertation Universität Stuttgart 1999
Computerprogramme zu entwickeln, mit denen real vorkommende Texte in einer natürlichen Sprache wie Deutsch oder Englisch mit beliebiger inhaltlicher Ausrichtung vollständig syntaktisch analysiert werden können, ist ein anspruchsvolles aber bisher noch unerreichtes Forschungsziel. Das Fehlen umfangreicher und verläßlicher Valenzlexika in maschinenlesbarer Form, insbesondere für Verben, stellt ein wesentliches Hindernis für weitere Fortschritte in diesem Bereich dar. Um hier einen Beitrag zu leisten, wurde mit der vorliegenden Arbeit ein Verfahren zur automatischen Bestimmung von Verbvalenzen aus deutschen Textkorpora entwickelt, mit dem ein maschinenlesbares Valenzlexikon automatisch erstellt werden kann. Dabei wird für jedes Verb eine große Menge von Verwendungsbeispielen daraufhin untersucht, mit welchen syntaktischen Konstituenten es häufig gemeinsam auftritt. Zur syntaktischen Vorstrukturierung der Verwendungsbeispiele wird ein Werkzeug zur partiellen syntaktischen Analyse deutscher Textkorpora eingesetzt, das ebenfalls für diese Arbeit entwickelt wurde.
Die einzelnen Arbeitsschritte und Komponenten des Valenzextraktionsverfahrens sowie die Implementierung des daraus entstandenen Systems werden beschrieben. Die mit dem System erzielbaren Ergebnisse werden beispielhaft anhand der extrahierten Valenzmuster für einige Verben vorgestellt, diskutiert und nach Kriterien aus dem Bereich des information retrieval bewertet. Beim Vergleich mit verwandten Arbeiten hinsichtlich der Arbeitsweise und den erzielbaren Ergebnissen werden Vorteile des vorliegenden Verfahrens in unterschiedlichen Bereichen deutlich: in einigen Fällen durch bessere Ergebnisse und in anderen Fällen durch eine größere Flexibilität, da keine Vorgaben über Valenzmusterstrukturen gemacht werden und somit beliebige durch die Verwendungsbeispiele abgedeckte Valenzmuster auffindbar sind.
In einem umfangreichen Anhang werden für 1044 Verben sämtliche Valenzmuster vorgestellt, die mit dem Extraktionssystem automatisch ermittelt wurden. Zusätzlich sind dort auch die 722 Grammatikregeln aufgeführt, die zur partiellen syntaktischen Analyse eingesetzt werden.