Bachelor Thesis BCLR-2015-25

BibliographyTas, Ilhan: Wissensbasierte lexikalische Substitution.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 25 (2015).
47 pages, german.
CR-SchemaH.3.1 (Content Analysis and Indexing)
H.3.3 (Information Search and Retrieval)
I.2.7 (Natural Language Processing)
Abstract

Lexikalische Mehrdeutigkeit ist eine fundamentale Eigenschaft von Sprachen, in denen viele Wörter mehrere sich von einander unterscheidende Bedeutungen haben. Wohingegen eine Person beim Lesen eines Textes oder in der Führung einer Konversation ihr angeeignetes Wissen beziehungsweise die Lebenserfahrung und den Kontext zu Hilfe nimmt um die richtige Lesart zu bestimmen, sieht dieser Prozess bei einem Rechner anders aus. Für diesen sind Texte nichts anderes als Zeichenketten respektive eine Aneinanderreihung von Buchstaben. Folglich müssen die ambigen Wörter, im Hinblick auf einen maschinellen Umgang mit natürlicher Sprache, aufgelöst und die richtige Lesart bestimmt werden. Lexikalische Mehrdeutigkeit ist ein weitreichendes Problem der maschinellen Verarbeitung natürlicher Sprache und gehört zu den immer mehr an Bedeutung gewinnenden Forschungsgebieten der Computerlinguistik. Lexikalische Substitution ist ein relativ neues Paradigma zur Lösung dieses Problems und wurde von McCarthy und Navigli bei SemEval 2007 eingeführt. Ziel dieser Herangehensweise ist die Generierung und das Ranking von Substitutionskandidaten für ein Zielwort im Hinblick auf ihre Angemessenheit bezüglich des Kontexts, in dem das zu ersetzende Wort erscheint. Dieser Ansatz ist eng verwandt mit der Wortbedeutungsdisambiguierung (engl. Word Sense Disambiguation, kurz WSD). Die drei Hauptansätze in der lexikalischen Substitution lassen sich in die Kategorien überwachte, unüberwachte und wissensbasierte Systeme eingliedern. Diese Arbeit stellt ein wissensbasiertes Modell für ein vokabular-globales Substitutionssystem vor. Grundlage hierfür ist der Lesk-Algorithmus. Mithilfe des Lesk-Algorithmus’ wird ein Ranking für potentielle Substitute aufgestellt und anschließend lexikalische Substitution auf dem CoInCo-Korpus durchgeführt.

Full text and
other links
PDF (882300 Bytes)
Department(s)University of Stuttgart, Institute for Natural Language Processing
Superviser(s)Padó, Prof. Sebastian
Entry dateSeptember 25, 2018
   Publ. Computer Science