Master Thesis MSTR-2020-78

BibliographyWolff, Malte: Analyse und Implementierung unterschiedlicher rekurrenter neuronaler Netze für multimodale Emotionserkennung.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 78 (2020).
63 pages, german.
Abstract

Die vorliegende Arbeit befasst sich mit der Konstruktion und Auswertung von einfachen Modellen für die Emotionserkennung in Unterhaltungen mit multimodalen Daten. Untersuchungen haben ergeben, dass vorhandene Modelle einen hohen Grad der Komplexität erreicht haben, was die Frage aufwirft, ob vergleichbare Ergebnisse mit einfacheren Modellen erreichbar sind. Eine der aktuellen Arbeiten zu diesem Thema ist die Arbeit “DialogueRNN: An Attentive RNN for Emotion Detection in Conversations†von Majumder et al. (2019), dessen Ergebnis für das durchschnittliche F-Maß von 62,9% der Vergleichswert für diese Master Thesis ist. Um eine gemeinsame Basis für einen Vergleich zu schaffen werden dieselben Daten der IEMOCAP-Datenbank für das Training und die Tests verwendet. Zusätzlich wird die notwendige Feature Extraktion an der von DialogueRNN orientiert. Es wurden insgesamt drei Modelle für die Auswertung erstellt, deren bestes Ergebnis für die Textmodalität von 11% zwar weit unter dem Vergleichswert liegt, dabei aber Werte von bis zu 37% für einzelne Klassen erreicht werden. Für die Auswertung der drei, in dieser Arbeit verwendeten, Modalitäten von Text, Audio und Video wurde ein F-Maß von 20% für die Emotionsmenge Traurigkeit, Neutralität, Wut, Begeisterung und Frustration erreicht. Zusätzlich wurden weitere Klassifizierungen wie beispielsweise eine Klassifizierung durch die Aktivierung untersucht, deren Ergebnis von einem UAR von 40% vergleichbar ist mit dem Ergebnis von anderen Arbeiten wie beispielsweise der Arbeit “Conversational Memory Network for Emotion Recognition in Dyadic Dialogue Videos†von Hazarika et al. (2018). Zusätzlich zu dem generellen Vergleich mit DialogueRNN haben sich während der Untersuchung der Arbeit von Majumder et al. (2019) weitere Fragen ergeben, auf die in dieser Thesis genauer eingegangen wird. Beispielsweise wurde untersucht, welche Auswirkung die Wahl der Testdaten auf die Ergebnisse der Modelle hat. In DialogueRNN wurde für die Testdaten eine bestimmte Aufnahmesitzung von der IEMOCAP-Datenbank verwendet. Bei Tests mit den, in dieser Thesis vorgestellten, Modellen zeigte sich, dass sich die Ergebnisse abhängig von der gewählten Aufnahmesitzung deutlich unterscheiden.

Department(s)University of Stuttgart, Institute for Natural Language Processing
Superviser(s)Vu, Prof. Thang; Neumann, Michael
Entry dateApril 29, 2021
   Publ. Computer Science