Bachelor Thesis BCLR-2020-51

BibliographyBurkhardt, Jannik: Generierung von synthetischen Trainingsdaten für die Erkennung von Absenderdaten aus Brief-Korrespondenz.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 51 (2020).
58 pages, german.
Abstract

Ein Problem, das sich oft bei Machine-Learning Projekten auftut, ist der Mangel an passenden Trainingsdaten. In dieser Arbeit wird untersucht, wie hoch der Nutzen aus der Verwendung synthetischer Daten in Situationen ist, wo nur sehr wenige echte Trainingsdaten zur Verfügung stehen. Am Beispiel der Absenderdatenerkennung in Briefkorrespondenz wird beschrieben, auf welche Eigenschaften synthetischer Dokumente zu achten ist, damit eine künstliche Intelligenz mit ihrer Hilfe auch echte Dokumente bearbeiten kann. Es wird gezeigt, dass die Ergebnisse einer künstlichen Intelligenz, welche sowohl mit wenigen echten, als auch einem großen Korpus synthetischer Daten trainiert wurde, um ein vielfaches akkurater sind als wenn auf synthetische Daten verzichtet wird. Daraus lässt sich schließen, dass in Situationen, wo echte Trainingsdaten nicht verfügbar sind, synthetische Daten eine brauchbare Alternative darstellen.

Full text and
other links
Volltext
Department(s)University of Stuttgart, Institute for Natural Language Processing
Superviser(s)Kuhn, Prof. Jonas; Blohm, Matthias; Kintz, Dr. Maximilien
Entry dateJanuary 18, 2021
New Report   New Article   New Monograph   Computer Science