Bibliography | Lindenmaier, Gabriel: The Impact Of Tokenization On RNN And Transformer Language Models And Their Hybrid Architectures. University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 44 (2022). 49 pages, english.
|
Abstract | Abstract Neural network based language models can already generate paragraph-length, flu- ent text, but need exponentially growing resources for a linear improvement. This thesis work compares the combination of different deep learning language model architecture building blocks. There is the transformer architecture which can ob- tain information from the textual context arbitrary through so called attention. The RNN instead processes it sequentially. Both architectures have their advantages, al- though transformers perform usually better. I compare a pure transformer variant, an RNN with one attention block at the end and a new hybrid architecture with few RNN blocks at the beginning, followed by a transformer. The comparison is done under different tokenizations. Tokenization is a way to split text into atomic parts so it can be used with language models. The textual data comes for the comparison is given by the character compression dataset enwik8, the Gutenberg book corpus PG-19 and the Wikipedia article dataset Wikitext-103 (Hutter, 2006; Rae et al., 2019; Merity et al., 2016). First I tune the parameters defining the architectures on enwik8. Than I train them on all datasets. The transformer baseline itself man- ages to outperform strongly comparable models in case of enwik8 and Wikitext-103. The hybrid-transformer obtains significant improvements over this baseline in all datasets. The RNN with one attention block shows better performance than compa- rable work in case of enwik8, but is generally worse than the other two architectures.
Deutsche Zusammenfassung Das Aufkommen von tiefen neuronalen Netzen (Deep Learning) hat zu einem bedeu- tenden Fortschritt bei Anwendungen wie Chatbots, der Generierung von einfachen Nachrichtenartikeln, z.B. Sportnachrichten, und der automatischen Übersetzung natürlicher Sprachen geführt. Ein zentraler Baustein dieser Systeme sind autore- gressive, sequentielle neuronale Netze. Diese neuronalen Netze generieren Sequenzen 46- in unserem Fall Text - Token für Token. Token sind formalisierte Bausteine von Texten und können ganz normale Wörter in ihrer einfachsten Form sein. Die To- ken werden wiederum durch sogenannte Embeddingvektoren repräsentiert, die die selbst erlernten Merkmale der spezifischen Token in Form eines Vektors enthalten. Das Netzwerk wird durch die Vorhersage des nächsten Tokens mit Kontext der vor- herigen Token eines Textes trainiert. Die Weiterentwicklung von Sprachmodellen hat auch zu einem besseren Verständnis von Texten und Wörtern durch Computersy- steme geführt. Dies ist wiederum - unter anderem - wichtig für die oben genannte Art von Anwendungen. Das Problem dabei sind die exponentiell wachsenden Anforderungen an entwe- der die Menge an Trainings-Text oder die Größe des Neuronalen Netzes, um einen linearen Fortschritt zu erzielen (Kaplan et al., 2020). Für dieses Skalierungsproblem gibt es verschiedene potentielle Lösungsansätze: Erstens ein besseres theoretisches Verständnis von Deep Learning. Zum Zweiten wäre eine effektivere Auswahl der Netzwerk Architektur möglich. Drittens könnte man optimierte Bausteine der Neuronalen Netzwerke entwickeln. Ich selbst verfol- ge in dieser Arbeit die vierte Möglichkeit der effektiveren Kombination gegebener Bausteine. Zwei solcher Bausteine, bzw. Netzwerkarchitekturen sind Transformer und RNNs. Beide Architekturen haben ihre Vorteile, obwohl Transformer in der Regel besser abschneiden. Ich vergleiche einen reinen Transformer, ein RNN mit einem Attention- Block am Ende und eine neue hybride Architektur mit wenigen RNN-Blöcken am Anfang, gefolgt von einem Transformer. Der Vergleich wird unter verschiedenen Tokenisierungen durchgeführt. Tokenisierung ist eine Möglichkeit, Text in atomare Teile zu zerlegen, damit er mit Sprachmodellen verwendet werden kann. Der Hybrid- Transformer erzielt signifikante Verbesserungen bei kleineren Token-Längen, die bei wortlangen Token kleiner werden. Die Textdaten für den Vergleich sind der Zeichenkompressions Datensatz enwik8, der Gutenberg-Buchkorpus PG-19 und der Wikipedia-Artikel Datensatz Wikitext- 103 (Hutter, 2006; Rae et al., 2019; Merity et al., 2016). Zuerst optimiere ich die 47Parameter der Netzwerkarchitekturen mittels enwik8. Dann trainiere ich sie auf allen Datensätzen. Das Transformer Vergleichsmodell selbst schafft es, stark vergleichbare Architekturen im Fall von enwik8 und Wikitext-103 zu übertreffen. Der Hybrid- Transformer erzielt in allen Datensätzen deutliche Verbesserungen gegenüber dem Transformer. Das RNN mit einem Attention-Block zeigt im Fall von enwik8 eine bessere Leistung als vergleichbare Arbeiten, ist aber generell schlechter als die beiden anderen Architekturen.
|