Bibliography | Breul, Gerhard Christian: How well do language models understand grammar? A case study on Japanese. University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 103 (2022). 59 pages, english.
|
Abstract | Zusammenfassung Deutsch:
Moderne auf Aufmerksamkeitsmechanismen basierende Sprachmodelle wie BERT und GPT zeigen bessere Ergebnisse in vielen NLP-Aufgaben, als die Modelle, die bis dahin den Stand der Technik verkörpert hatten. Derartige Ergebnisse implizieren einen Grad von Verständnis von grammatikalischen Strukturen. Diese Arbeit erkundet die Fähigkeit von Sprachmodellen, Transitivität von Verben auf Japanisch vorherzusagen, und versucht so, einen Beitrag zu der wachsenden Menge an Forschung an solchem Sprachverständnis zu leisten. Ich vergleiche eine Vielzahl verschiedener Sprachmodelle mit unterschiedlichen Architekturen, Tokenisierungsansätzen, Trainingsregimenten und -datensätzen. Hierdurch finde ich, dass bidirektionale Modelle generell bessere Ergebnisse erzielen als Unidirektionale, und dass verschiedene Methoden der Perplexitätsberechnung situationsbedingt vorteilhaft sein können. Außerdem schließe ich, dass die getesteten Modelle ein nur lückenhaftes Verständnis für die Grammatik erlangt haben, die für Transitivitätsvorhersage notwendig ist.
Summary English:
Modern attention-based language models such as BERT and GPT have been shown to outperform previous state-of-the-art models on many NLP tasks. This performance implies a level of understanding of grammatical structures. This work attempts to contribute to the growing body of research assessing this understanding, by exploring language models' ability to predict the transitivity of verbs in Japanese, which seems to be somewhat underrepresented in research compared to English. I consider a variety of language models with different architectures, tokenization approaches, training data, and training regimes. In doing so, I find that bidirectional models outperform unidirectional ones, that different types of perplexity calculation can be advantageous in certain situations and should be considered on a case-by-case basis, and that the tested models only gain a somewhat limited understanding of the grammar required for the Transitivity Prediction task.
|