Bachelor Thesis BCLR-2014-06

BibliographySudra, Constanze: Interaktive Optimierung automatischer Sprachverarbeitung.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 6 (2014).
66 pages, german.
Abstract

In der Computerlinguistik bildet die Zuordnung von Wörtern und Satzzeichen zu verschiedenen Kategorien die Basis für eine Vielzahl von Sprachverarbeitungsverfahren. Diese Verfahren kommen auch im Rahmen geisteswissenschaftlicher Forschung zur Anwendung. In dieser Arbeit wird das Augenmerk auf die Zuordnung zu Wortarten, die im englischen als parts of speech bezeichnet werden, gerichtet. Den Algorithmen, die diese sogenannten Part-of-Speech Tags vergeben, liegen unterschiedli­che Verfahren zugrunde. Ihre Genauigkeit ist jedoch besonders bei nicht-standardsprachlichen Texten, wie sie in den Geisteswissenschaften häufig vorliegen, oftmals nicht ausreichend, um die Ergebnisse für eine weitere Verarbeitung einzusetzen. Es besteht also die Notwendigkeit die Fehlerquellen der Algorithmen zu bestimmen, um dann die weitere Verbesserung und Anpassung an neue Domänen zu ermöglichen. Diese Bachelorarbeit konzentriert sich darauf die Ergebnisse, die mehrere Tagging-Algorithmen auf frei wählbaren Texten erzielen, vergleichend grafisch darzustellen. Somit lässt sich die Analyse möglicher Fehler für den Experten effizienter gestalten. Im Rahmen dieser Arbeit wurde dazu ein Konzept entwickelt, sowie eine prototypische Umsetzung implementiert. Ihr Aufbau wurde gezielt modular gestaltet um eine individuelle Anpassung zu ermöglichen. Exemplarisch wurden drei Tagger eingebunden und ihre Ergebnisse mithilfe der Entropie ausgewertet, um dem Nutzer eventuell fehlerbehaftete Part-of-Speech Tags vorzuschlagen. Anhand verschiedener miteinander verknüpfter Graph- und Textdarstellungen ist es dem Nutzer möglich, ausgewählte Textstellen auf verschiedenen Ebenen zu untersuchen. Mithilfe der sogenannten Tokenkontext Dar­stellung wird die Analyse aller Kontexte, in der ein Ereignis im Eingabetext gefunden wurde, für den Experten effizient möglich. Um einen Eindruck über die Eignung des Ansatzes und die Benutzbarkeit des Prototyps zu erlangen, wurde im Rahmen dieser Arbeit eine Evaluation anhand von Anwendungs­fällen durchgeführt. Dazu wurden zwei englischsprachige Texte des 19. Jahrhunderts mithilfe der prototypischen Umsetzung hinsichtlich der Korrektheit ausgewählter Part-of-Speech Tags erfolgreich untersucht.

Department(s)University of Stuttgart, Institute for Natural Language Processing
Superviser(s)Kuhn, Prof. Jonas; Ertl, Prof. Thomas; Heimerl, Florian; John, Markus; Müller, Andreas
Entry dateApril 30, 2024
   Publ. Computer Science