Masterarbeit MSTR-2023-82

Bibliograph.
Daten
Burkhardt, Jannik: Automatisierte Generierung von Trainingsdatenfür die Informationsextraktion aus deutschenGeschäftsdokumenten auf Basis von Sprachmodellen.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Masterarbeit Nr. 96 (2023).
91 Seiten, deutsch.
Kurzfassung

Generative KI hat seit der Veröffentlichung von ChatGPT im Dezember 2022 enorme Popularität erlangt. Ihr Potenzial ist immens und schon heute wird diese neue Technik in viele Produkte und Anwendungen integriert. In dieser Arbeit wird untersucht, welchen Einfluss automatisiert annotierte Trainingsdaten und von ChatGPT generierte Trainingsdaten auf das Finetuning von Sprachmodellen haben, wenn nur wenige handannotierte Daten vorhanden sind. Die mit den Methoden verbundenen Vorteile und Hindernisse werden am Beispiel der Relation Extraction aus deutschen Geschäftsdoku- menten in Erfahrung gebracht. Es wird gezeigt, dass die Daten von ChatGPT von Fehlern bereinigt werden müssen, diese Daten dann jedoch die Leistung des Sprachmodells signifikant verbessern gegenüber einem Sprachmodell, das nur auf wenigen handannotierten Daten basiert.

Volltext und
andere Links
Volltext
Abteilung(en)Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung
BetreuerVu, Prof. Ngoc Thang; Engelbach, Matthias; Kintz, Dr. Maximilien
Eingabedatum20. Februar 2024
   Publ. Informatik