Master Thesis MSTR-2025-46

BibliographyFerati, Fatos: Byte-pair-encoding for knowledge graph embeddings.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Master Thesis No. 46 (2025).
52 pages, english.
Abstract

In the field of knowledge representation, Knowledge Graphs~(KGs) play a crucial role in organizing and representing vast amounts of information. However, they are inherently incomplete, as links can be missing from the graph. The task of predicting such missing links is known as \textit{link prediction}. Link prediction is performed in different settings, namely \textit{transductive}, where all entities and relation types are observed during training; \textit{inductive}, where some entities are unseen; and \textit{fully-inductive}, where some entities and relation types are unseen. A considerable amount of effort has been devoted to improving link prediction in the transductive setting, with Knowledge Graph Embedding~(KGE) emerging as a prominent approach. While research on inductive and fully-inductive link prediction has been conducted, existing methods rely on additional information beyond the set of training edges. To leverage the rich transductive literature for the two inductive settings, recent work in the form of \textsc{BytE} proposed using a BPE tokenizer to adapt transductive KGE to the inductive settings. However, it relies on a pre-constructed token vocabulary that may not be suitable for all knowledge graphs, and its evaluation is limited to benchmarks that contain only a few test edges with unseen elements. This thesis builds upon \textsc{BytE} by introducing purpose-built token vocabularies, modifying the process of transforming token embeddings into entity and relation embeddings, and subsequently performing a systematic evaluation on standard inductive benchmarks.

Wissensgraphen (Knowledge Graphs, KGs) sind ein zentrales Mittel zur strukturierten Repräsentation großer Informationsmengen. Sie sind jedoch von Natur aus unvollständig, da Verbindungen jederzeit fehlen können. Deswegen ist die Vorhersage fehlender Verbindungen – bekannt als \textit{Link-Prediction} – eine zentrale Aufgabe. Link-Prediction wird in verschiedenen Kontexten durchgeführt, nämlich \textit{transduktiv}, wo alle Entitäten und Beziehungstypen während des Trainings beobachtet werden; \textit{induktiv}, wo einige Entitäten nicht sichtbar sind; und \textit{vollständig induktiv}, wo einige Entitäten und Beziehungstypen nicht sichtbar sind. Es wurden erhebliche Anstrengungen unternommen, um Link-Prediction im transduktiven Umfeld zu verbessern, wobei sich Knowledge Graph Embedding (KGE) als ein prominenter Ansatz herauskristallisiert hat. Während transduktive Methoden gut erforscht sind, benötigen bestehende Ansätze für induktive Szenarien oft zusätzliche Informationen über die Trainingsdaten hinaus. Um den vielerforschten Bereich der transduktiven Link-Prediction auszunutzen, wurde kürzlich \textsc{BytE} als Ansatz vorgeschlagen. Dieser passt transduktive Embedding-Modelle mithilfe eines BPE-Tokenizers an induktive Aufgaben an. Allerdings basiert diese Methode auf einem vordefinierten Token-Vokabular und wurde nur auf Benchmarks mit wenigen Verbindungen mit unbekannten Entitäten evaluiert. Diese Arbeit baut auf \textsc{BytE} auf, indem sie speziell entwickelte Token-Vokabulare einführt, den Prozess der Umwandlung von Token-Embeddings in Entitäts- und Beziehungs-Embeddings modifiziert und anschließend eine systematische Bewertung anhand von Standard-Induktionsbenchmarks durchführt.

Full text and
other links
Volltext
Department(s)University of Stuttgart, Institute of Artificial Intelligence, Analytic Computing
Superviser(s)Staab, Prof. Steffen; Niepert, Prof. Mathias; Gregucci, Cosimo
Entry dateNovember 11, 2025
New Report   New Article   New Monograph   Computer Science