Bachelorarbeit BCLR-2014-06

Bibliograph.
Daten
Sudra, Constanze: Interaktive Optimierung automatischer Sprachverarbeitung.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Bachelorarbeit Nr. 6 (2014).
66 Seiten, deutsch.
Kurzfassung

In der Computerlinguistik bildet die Zuordnung von Wörtern und Satzzeichen zu verschiedenen Kategorien die Basis für eine Vielzahl von Sprachverarbeitungsverfahren. Diese Verfahren kommen auch im Rahmen geisteswissenschaftlicher Forschung zur Anwendung. In dieser Arbeit wird das Augenmerk auf die Zuordnung zu Wortarten, die im englischen als parts of speech bezeichnet werden, gerichtet. Den Algorithmen, die diese sogenannten Part-of-Speech Tags vergeben, liegen unterschiedli­che Verfahren zugrunde. Ihre Genauigkeit ist jedoch besonders bei nicht-standardsprachlichen Texten, wie sie in den Geisteswissenschaften häufig vorliegen, oftmals nicht ausreichend, um die Ergebnisse für eine weitere Verarbeitung einzusetzen. Es besteht also die Notwendigkeit die Fehlerquellen der Algorithmen zu bestimmen, um dann die weitere Verbesserung und Anpassung an neue Domänen zu ermöglichen. Diese Bachelorarbeit konzentriert sich darauf die Ergebnisse, die mehrere Tagging-Algorithmen auf frei wählbaren Texten erzielen, vergleichend grafisch darzustellen. Somit lässt sich die Analyse möglicher Fehler für den Experten effizienter gestalten. Im Rahmen dieser Arbeit wurde dazu ein Konzept entwickelt, sowie eine prototypische Umsetzung implementiert. Ihr Aufbau wurde gezielt modular gestaltet um eine individuelle Anpassung zu ermöglichen. Exemplarisch wurden drei Tagger eingebunden und ihre Ergebnisse mithilfe der Entropie ausgewertet, um dem Nutzer eventuell fehlerbehaftete Part-of-Speech Tags vorzuschlagen. Anhand verschiedener miteinander verknüpfter Graph- und Textdarstellungen ist es dem Nutzer möglich, ausgewählte Textstellen auf verschiedenen Ebenen zu untersuchen. Mithilfe der sogenannten Tokenkontext Dar­stellung wird die Analyse aller Kontexte, in der ein Ereignis im Eingabetext gefunden wurde, für den Experten effizient möglich. Um einen Eindruck über die Eignung des Ansatzes und die Benutzbarkeit des Prototyps zu erlangen, wurde im Rahmen dieser Arbeit eine Evaluation anhand von Anwendungs­fällen durchgeführt. Dazu wurden zwei englischsprachige Texte des 19. Jahrhunderts mithilfe der prototypischen Umsetzung hinsichtlich der Korrektheit ausgewählter Part-of-Speech Tags erfolgreich untersucht.

Abteilung(en)Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung
BetreuerKuhn, Prof. Jonas; Ertl, Prof. Thomas; Heimerl, Florian; John, Markus; Müller, Andreas
Eingabedatum30. April 2024
Neuer Report   Neuer Artikel   Neues Sammelwerk   Informatik