Forschungsschwerpunkte

(aus dem IfI-Jahresbericht 1996)

Forschungsberichte und Papiere

Wissensrepräsentation mit FrameTalk

Die Überarbeitung von FrameTalk wurde abgeschlossen. FrameTalk ist eine frame-basierte Repräsentationssprache, die als Erweiterung des Common Lisp Object System (CLOS), der objektorientierten Ergänzung von Common Lisp, entwickelt wird. Die Erweiterungen sind im Sinne objektorientierter Konzepte realisiert, d.h. sie haben selbst die Form von Klassen, Instanzen und Methoden:

Der Propagierungsmechanismus für Slotwerte wurde überarbeitet und in eine einheitliche, konsistente Form gebracht.
In Frame-Repräsentationen spielen Gegebenheiten, die bei fehlender Information als zutreffend angenommen werden, eine große Rolle. Es wurden mehrere Erweiterungen des Default-Mechanismus realisiert, die es erlauben, Information aus schon bekannten Slotwerten abzuleiten.
Es wurden eine Reihe syntaktischer Erweiterungen vorgenommen und ein Protokoll, d.h. eine Programmierschnittstelle, entwickelt, die solche syntaktischen Transformationen standardisiert.
Der in einer Studienarbeit entwickelte Teile-Ganzes-Mechanismus wurde in FrameTalk integriert. Über Rückverweise und angelagerte Prozeduren werden die Beziehungen eines Objekts zu seinen Bestandteilen vom System verwaltet.
Die Realisierung sogenannter virtueller Slots nutzt die im Vorjahr geschaffene Kapselung von Slotzugriffen aus. Mit Hilfe einfacher Beschreibungsmittel können solche virtuellen Slots definiert werden, die abgeleitete Werte enthalten, auf die aber wie auf reale Slots zugegriffen werden kann.
Der Teile-Ganzes-Mechanismus und die Möglichkeiten zur Propagierung von Slotwerten wurden in Form deklarativ beschreibbarer Slotabhängigkeiten abstrahiert. Die so beschriebenen Slotabhängigkeiten werden vom System verwaltet.
Ein einfacher Regelmechanismus wurde in das vorhandene FrameTalk-System integriert. Regelmengen werden bezüglich einzelner Frames definiert. Der Mechanismus der Regelauslösung baut auf dem der angelagerten Prozeduren auf. Die Regeln können vorwärtsverkettend, d.h. bei Bekanntwerden eines Slotwerts, und rückwärtsverkettend, d.h. bei Anfrage nach einem Slotwert, angewendet werden.

Modellierung verfahrenstechnischer Prozesse

Christian Rathke, Bernd Raichle

In Kooperation mit dem Institut für Systemdynamik und Regelungstechnik (ISR) wird FrameTalk für die Modellierung verfahrenstechnischer Prozesse eingesetzt. Die bereits seit 1992 bestehende Zusammenarbeit ist seit 1995 weiter intensiviert worden. Parallel wurde während des vergangenen Jahres die Weiterentwicklung und Implementierung von FrameTalk und eines am ISR implementierten Baukastens mit verfahrenstechnischen Modellbausteinen zur Modellierung mehrerer verfahrenstechnischer Prozesse mit Hilfe von FrameTalk fortgeführt. FrameTalk dient dabei als Implementierungssprache für ein verfahrenstechnisches Datenmodell, das den Erfordernissen der verfahrenstechnischen Modellierung angepaßt ist. Der modulare objekt"-orientierte Aufbau von FrameTalk hat sich als ausgesprochen vorteilhaft für diese Art der Anwendung herausgestellt.

Das DFG-Projekt "Wissensbasierte Entwurfsumgebungen zur rechnergestützten Modellierung verfahrenstechnischer Prozesse" wurde mit der Entwicklung eines Unterstützungssystems für diesen Baukasten abgeschlossen. Dieses System stellt einem Modellierer die Funktionalität des genannten Baukastens in Form einer in CLIM implementierten Benutzungsoberfläche einfach und intuitiv zur Verfügung. Unter Verwendung eines lauffähigen Prototyps dieses Unterstützungssystems können sogenannte örtlich konzentrierte Zweiphasen-Systemen modelliert werden, die in der Verfahrenstechnik beispielsweise zur Modellierung eines Verdampfers, eines Kondensators oder des Bodens einer Destillationskolonne benötigt werden. Das genannte DFG-Projekt wurde in Zusammenarbeit mit einem am Lehrstuhl für Prozeßtechnik der RWTH Aachen angesiedelten DFG-Projekt bearbeitet, das ergänzende Fragestellungen zur Strukturierung des Modellierungsablaufes untersucht.

ChaPLin als Werkzeug zur Verarbeitung natürlicher Sprache

Mathis Löthe

Mit der Überarbeitung und Dokumentation des Chartparsers ChaPLin in einem Forschungsbericht wurde bis April 1996 eine Arbeit von G. Burkert weitergeführt, um eine Ausgangsbasis für weitere Forschung im Bereich der Analyse natürlicher Sprache zu erhalten. Das Programm steht seitdem über die WWW-Seiten der Abteilung der wissenschaftlichen Öffentlichkeit zur Verfügung.

ChaPLin ist ein Parser für kontextfreie Grammatiken, der sich durch explizite Repräsentation der Zwischenergebnisse, die Parametrisierbarkeit vieler Eigenschaften und die Möglichkeit zusätzlicher Einschränkungen für Regelanwendungen gut für Experimente eignet. Ein Anwendungsbeispiel ist die von O. Wauschkuhn durchgeführte syntaktische Textkorpusanalyse, bei der für ChaPLin eine partielle Grammatik des Deutschen erstellt wurde.

Um die Möglichkeiten von ChaPLin genauer kennenzulernen, wurden sie mit den theoretischen Begriffen aus der Dissertation von T. Schöbel-Theuer verglichen. Im Rahmen eines Softwarepraktikums I wurde mit ChaPLin ein Compiler für eine kleine Teilmenge von Modula II erstellt, damit anhand von Statistiken des Ableitungsprozesses Unterschiede zwischen typischen Grammatiken für Programmiersprachen einerseits und für natürliche Sprachen andererseits erkannt werden können.

Erschließung von Textkorpora - Werkzeuge und Methoden

gefördert vom Land Baden-Württemberg im Rahmen des Forschungsschwerpunktprogramms

Prof. Dr. Egbert Lehmann, Oliver Wauschkuhn

Aus dem IfI-Jahresbericht 1995:

Die Arbeiten des im selben Rahmen finanzierten Vorgängerprojekts "Werkzeuge zur Erschließung von Textkorpora" wurden mit modifizierter Zielsetzung fortgesetzt; Projektpartner sind weiterhin die Institute für maschinelle Sprachverarbeitung (IMS) und für Linguistik-Romanistik (ILR). Dabei liegt unser Forschungsschwerpunkt in den Bereichen der partiellen syntaktischen Analyse deutscher Textkorpora und der anschließenden automatischen Extraktion lexikalischer Informationen, insbesondere zu Verben.

In der ersten Hälfte des Berichtsjahres wurden quantitative Untersuchungen darüber durchgeführt, wie sich statistisches Tagging als Vorstufe der partiellen syntaktischen Analyse auf die Anzahl der Ergebnisse (Parse-Bäume) gegenüber ungetaggter Eingabe auswirkt. Unter Tagging versteht man in diesem Zusammenhang die eindeutige Auswahl einer morphosyntaktischen Hypothese zu jeder Wortform eines Textes in Abhängigkeit von ihrem nahen Kontext. Als Ergebnis der Untersuchungen zeigte sich, daß Tagging die Anzahl der Parse-Ergebnisse reduziert, wobei sich jedoch die Mißerfolgrate der syntaktischen Analyse erhöht.

Im zweiten Halbjahr wurde an dem 2-stufigen Verfahren zur partiellen syntaktischen Analyse natürlichsprachlicher Texte weitergearbeitet: Die Implementierung wurde verbessert und für eine nachfolgende Extraktion linguistischer Informationen ausgebaut, und die Syntaxregeln wurden v.a. für die erste Analysestufe (Grobanalyse) vollständig überarbeitet und erweitert.

Aus dem IfI-Jahresbericht 1996:

Die Arbeiten im Projekt, an dem als Partner die Institute für maschinelle Sprachverarbeitung (IMS) und für Linguistik-Romanistik (ILR) beteiligt sind, wurden in dieser letzten Phase fortgesetzt. Unser Forschungsschwerpunkt lag im Bereich der automatischen Extraktion lexikalischer Informationen aus Textkorpora.

Das zweistufige Verfahren zur partiellen syntaktischen Analyse deutscher Textkorpora wurde weiter verbessert: Die Grammatik für die zweite Analysestufe wurde überarbeitet und erweitert. Die Grammatiken beider Analysestufen bestehen zusammen nun aus über 600 Syntaxregeln. Außerdem wurden Untersuchungen über die Abdeckung des Analysetools am Beispiel eines deutschen Zeitungskorpus duchgeführt. Für 56,5% der 72041 Sätze konnte mindestens ein kompletter partieller Syntaxbaum gefunden werden, für 29,2% wurden unvollständige Ergebnisse geliefert und für 14,3% gar keine. Die Analysedauer je Satz betrug im Durchschitt 1,3 Sekunden.

Weiterhin wurde die Entwicklung eines Programms zur Extraktion von Verbvalenzen fortgesetzt, das das obige Werkzeug für die syntaktische Aufbereitung der untersuchten Texte verwendet. Ein Problem stellt dabei beispielsweise die Abgrenzung der relevanten Saztbaumuster zu den übrigen dar.

Ein fehlertolerantes Analyseverfahren für deutsche Textkorpora basierend auf der GB-Theorie

Stefan Klatt

gefördert durch die DFG im Rahmen des Graduiertenkollegs Linguistische Grundlagen für die Sprachverarbeitung

Ziel dieser Arbeit ist die Entwicklung eines effizienten Verfahrens zur syntaktischen Analyse deutscher Textkorpora, das auch eine Bearbeitung fehlerhafter und unvollständiger Sätze beinhaltet.

Linguistisch motiviert ist das Verfahren durch das Prinzipien- und Parametermodell der GB-Theorie (Government and Binding Theory). In dieser werden einzelsprachliche Grammatiken als Instantiierungen einer universellen Grammatik (UG) betrachtet. Die Generierung eines Satzes erfolgt im GB-Modell in mehreren Stufen. Während die syntaktische Ausgangsstruktur nach dem X-bar Schema durch eine kontextfreie Regelgrammatik beschrieben werden kann, ist dies für die erzeugte Ergebnisstruktur aufgrund von Bewegungs- und Tilgungsprozessen in der Regel nicht mehr möglich.

Somit empfiehlt sich für die Satzanalyse ein mehrstufig organisiertes Verfahren, in dem dem oben erwähnten Generierungsprozeß wie folgt Rechnung getragen wird: In einer ersten Stufe wird der Satz gemäß des topologischen Feldermodells in eine lineare Felderstruktur überführt, die Bewegungs- und Tilgungsprozesse implizit berücksichtigt und die Basispositionen der betreffenden Konstituenten rekonstruiert. Als nächstes werden die einzelnen Felder unter Ermittlung potentieller Argument- und Adjunktionskonstrukte zunächst isoliert voneinander in eine hierarchische Struktur überführt. In der letzten Stufe werden dann die linearen Felder selbst in die hierarchische GB-konforme Satzstruktur eingegliedert. In Fällen, in denen eine Disambiguierung mehrerer potentieller Satzanalysen angestrebt wird, ist der Einsatz statistisch-basierter Methoden vorgesehen.

Die Satzzerlegung nach dem topologischen Feldermodell ermöglicht für fehlerhafte oder unvollständige Sätze eine engere Eingrenzung des relevanten Bereichs, für den dann geeignete Fehlerinterpretations- bzw. besondere Analysestrategien herangezogen werden können. Ferner erlaubt der Aufbau des Parsers es auch, Teile davon auf anderen Gebieten der maschinellen Sprachverarbeitung einzusetzen, wie z.B. beim (Pre-)Tagging oder bei der Ermittlung besonderer syntaktischer Konstruktionen in Textkorpora.

ILP-Verfahren zum Entdecken von Regelmäßigkeiten in Datenbasen

Irene Weber

Die Induktive Logikprogrammierung (ILP) ist ein Teilgebiet des maschinellen Lernens, das sich traditionell mit der Induktion von Logikprogrammen aus Beispielen beschäftigt. Im Hinblick auf Anwendungen im Bereich des Knowledge Discovery in Databases findet neben dem Konzeptlernen neuerdings auch das Entdecken von Regelmäßigkeiten in Datenbasen verstärktes Interesse. In Fortführung früherer Arbeiten wurde das prototypische Entdeckungssystem zum Finden von Regelmäßigkeiten in Datenbasen wurde neu implementiert und an ein relationales Datenbankmanagementsystem angekoppelt, so daß die Suche nach Regelmäßigkeiten durch SQL-Anfragen realisiert wird. Dadurch können auch größere Datenbestände durchsucht werden.

Als Testanwendung wurde gemeinsam mit S. Rapp vom IMS eine Datenbasis aus phonetischen Daten aufbereitet und für Experimente mit dem neuentwickelten sowie mit gängigen Lernsystemen verwendet. Ausgehend davon wurde das System erweitert und verbessert. Ein effizienterer Ansatz zum Konstantenlernen wurde realisiert. Außerdem wurde ein heuristischer Ansatz zum Finden numerischer Beschränkungen entwickelt, der in das System integriert werden kann (Diplomarbeit S. Escher).

I. Weber / April 1997