Bachelorarbeit BCLR-2020-51

Bibliograph.
Daten
Burkhardt, Jannik: Generierung von synthetischen Trainingsdaten für die Erkennung von Absenderdaten aus Brief-Korrespondenz.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Bachelorarbeit Nr. 51 (2020).
58 Seiten, deutsch.
Kurzfassung

Ein Problem, das sich oft bei Machine-Learning Projekten auftut, ist der Mangel an passenden Trainingsdaten. In dieser Arbeit wird untersucht, wie hoch der Nutzen aus der Verwendung synthetischer Daten in Situationen ist, wo nur sehr wenige echte Trainingsdaten zur Verfügung stehen. Am Beispiel der Absenderdatenerkennung in Briefkorrespondenz wird beschrieben, auf welche Eigenschaften synthetischer Dokumente zu achten ist, damit eine künstliche Intelligenz mit ihrer Hilfe auch echte Dokumente bearbeiten kann. Es wird gezeigt, dass die Ergebnisse einer künstlichen Intelligenz, welche sowohl mit wenigen echten, als auch einem großen Korpus synthetischer Daten trainiert wurde, um ein vielfaches akkurater sind als wenn auf synthetische Daten verzichtet wird. Daraus lässt sich schließen, dass in Situationen, wo echte Trainingsdaten nicht verfügbar sind, synthetische Daten eine brauchbare Alternative darstellen.

Volltext und
andere Links
Volltext
Abteilung(en)Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung
BetreuerKuhn, Prof. Jonas; Blohm, Matthias; Kintz, Dr. Maximilien
Eingabedatum18. Januar 2021
   Publ. Informatik