Bibliography | Mujko, Alp: Analyse der Repräsentanz von BERT-basierten Class-Embeddings in unbalancierten Datensätzen mittels Active Learning. University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 85 (2023). 63 pages, german.
|
Abstract | Das Sprachmodell BERT (Bidirectional Encoder Representations from Transformers) ist ein neuronales Netzwerk, das für die Verarbeitung von Textdaten ausgelegt ist und aufgrund seiner Fähigkeit, sowohl die Vorwärts- als auch die Rückwärtsrichtung des Kontexts zu berücksichtigen, als sehr leistungsfähig bei Aufgaben im Bereich der natürlichen Sprachverarbeitung gilt. In dieser Arbeit nutzen wir dessen Transformer-Architektur, um geeignete Dokumenten-Embeddings für Texte zu generieren. Aus diesen leiten wir für jede Klasse an Dokumenten ein Class-Embedding ab, das stellvertretend für die jeweilige Klasse steht. Um die Repräsentanz der erzeugten Class-Embeddings zu untersuchen, verwenden wir diese in einem Active Learning Szenario, um neue unbekannte Dokumente zu labeln. Wir stellen fest, dass die berechneten Class-Embeddings ihre Klasse sinngemäß repräsentieren und folglich den Embedding-Raum sinnvoll partitionieren. Darüber hinaus liefert der Abstand zwischen den Class-Embeddings Aufschluss über die semantische Ähnlichkeit zwischen den Klassen.
|
Full text and other links | Volltext
|
Department(s) | University of Stuttgart, Institute for Natural Language Processing
|
Superviser(s) | Kuhn, Prof. Jonas; Wertz, Lukas |
Entry date | April 5, 2024 |
---|