Diploma Thesis DIP-2888

BibliographyEckart, Kerstin: Repräsentation von Unterspezifikation in relationalen Datenbanksystemen.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Diploma Thesis No. 2888 (2009).
115 pages, german.
CR-SchemaH.2.1 (Database Management Logical Design)
I.2.7 (Natural Language Processing)
Abstract

Im Rahmen dieser Arbeit wurde eine Erweiterung zu einer bestehenden Datenbank, der B3- Datenbank aus dem Projekt B3 des Sonderforschungsbereichs 732 an der Universität Stuttgart, entwickelt. Diese Erweiterung wurde benötigt um unterspezifizierte Repräsentationen von Ambiguitäten in Analysen natürlicher Sprache zu speichern und abfragbar zu machen.

Da die Arbeit an der Schnittstelle zwischen Informatik und Computerlinguistik einzuordnen ist, wurden zunächst einige grundlegenden Konzepte aus beiden Bereichen erläutert. Unter anderem wurden verschiedene Arten von Ambiguitäten und Beispiele für unterspezifizierte Repräsentationen vorgestellt. Desweitern wurde der Ansatz der Arbeit gegen andere Systeme und Repräsentationsformen abgegrenzt.

Danach wurde die technische Umgebung der B3DB-Erweiterung erläutert. Die B3-Datenbank wurde vorgestellt und einige Designentscheidungen besprochen, die Auswirkungen auf die Anforderungen an die B3DB-Erweiterung hatten. Außerdem wurde FSPar besprochen, ein linguistisches Tool, das entlang einer Verarbeitungspipeline linguistische Analysen zu Primärdaten erstellt. Mit FSPar wurden die Testdaten für die B3DB-Erweiterung annotiert. Im Folgenden wurden die Anforderungen an die B3DB-Erweiterung besprochen und die Datenstrukturen für die Erweiterung entwickelt. Dazu wurden zunächst einige aufeinander aufbauende Metamodelle betrachtet: Das Linguistic Annotation Framework LAF, der Entwurf eines ISO-Standards für die Repräsentation linguistischer Annotationen und Primärdaten, das unter der Kennung ISO/DIS 24612 (2009) geführt wird. Es bildet die Grundlage für die Datenstrukturen der B3DB-Erweiterung. Mithilfe des Graph Annotation Formats GrAF wurde in ISO/DIS 24612 (2009) ein Pivot- und Austauschformat für das LAF-Datenmodell eingeführt. Das Modell von Kountz et al. erweitert den Ansatz von LAF/GrAF um die Möglichkeit der Repräsentation von Unterspezifikation im Falle ambiger linguistischer Strukturen.

Aus den Metamodellen wurden dann im Rahmen dieser Arbeit Entity-Relationship-Modelle abgeleitet und zu einem gemeinsamen konzeptuellen Entwurf für die Erweiterung der B3-Datenbank integriert. Der konzeptuelle Entwurf wurde in ein Relationenmodell überführt und als relationale Datenbank in PostgreSQL implementiert.

Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)PD Dr. phil. habil. Ulrich Heid, Apl. Prof.; Radeschütz, Sylvia
Entry dateMay 5, 2010
   Publ. Computer Science