Diploma Thesis DIP-2268

BibliographyRadeschütz, Sylvia: Entwurf und Implementierung eines Annotationswerkzeugs für die Erstellung von Baumbanken.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Diploma Thesis No. 2268 (2005).
90 pages, german.
CR-SchemaH.5.2 (Information Interfaces and Presentation User Interfaces)
I.2.7 (Natural Language Processing)
D.2.2 (Software Engineering Design Tools and Techniques)
Abstract

Viele Anwendungsgebiete in der maschinellen Sprachverarbeitung erfordern umfangreiche, syntaktisch annotierte Ressourcen, so genannte Baumbanken. Eine wichtige Anwendung ist die Verbesserung von statistischen Verfahren für die Disambiguierung mehrdeutiger Sätze, die auf Baumbanken trainiert werden. Die verfügbaren Baumbanken für die deutsche Sprache sind für die Anforderungen jedoch zu klein. So entstand die Motivation, einen Editor zu erstellen, mit dem die Annotation von Sätzen effizient unterstützt wird, um Baumbanken zu erstellen und zu erweitern.

Das Werkzeug, der PepTreeEditor, basiert auf Satzanalysen des PEP-Parsers. Mit dem PepTreeEditor kann der Annotierer die korrekt geparsten Strukturen auswählen und falsche gegebenenfalls ändern. Ihm stehen Aktionen zur Verfügung, mit denen er neue Knoten erstellen und so Teilbäume verknüpfen kann, um den Gesamtbaum aufzubauen. Der Evaluierung kann man entnehmen, dass dies bei partiellen, aber richtigen Analysen meist relativ schnell erfolgt, während die Verknüpfung und das Löschen bei falschen Analysen mehr Zeit vereinnahmt. Die schnellste Methode, die Satzstruktur zu ändern, ist die Auswahl einer Alternative mit Hilfe der Oder-Knoten. Aber auch die Knoteninhalte, unter anderem die morphosyntaktischen Merkmale, können mit dem PepTreeEditor angepasst werden.

Für die Abspeicherung stehen diverse Formate bereit. Zum Einen kann die Struktur als "finished Tree", "unfinished Tree" oder aber einfach nur unter einem anderen Dateiformat gespeichert werden. Zum anderen ist eine Umwandlung ins PepTigerFormat möglich, das bis auf wenige Ausnahmen dem Tigerformat entspricht, mit anschließender Speicherung als Textdatei. So ist eine Aufnahme in das TIGER Corpus möglich, das einhergeht mit der Verwendbarkeit aller dazugehörigen Werkzeuge.

Department(s)University of Stuttgart, Institute of Visualisation and Interactive Systems, Intelligent Systems (Prof. Lehmann)
Entry dateJuly 16, 2008
   Publ. Computer Science