Bibliography | Münch, Rudolf: Konzeption und Realisierung eines Werkzeugs zur Extraktion von Metadaten aus einem heterogenen Datenbestand des Computer-Aided Engineering. University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 61 (2021). 79 pages, german.
|
Abstract | Die Menge an Dateien, die in einem Unternehmen täglich erstellt werden, steigt kontinuierlich an. Um dieser Flut an Daten gerecht zu werden, sind für eine Analyse und Interpretation Metadaten besonders wichtig. In dieser Arbeit wird ein generisches und erweiterbares Werkzeug entwickelt, um Metadaten aus Dateien zu extrahieren. Metadaten kommen in einer Datei in verschiedenen Formen vor. Ein Beispiel sind hier die Dateigröße und der Dateiname aus den Dateiattributen, die mit den Standardwerkzeugen jedes Betriebssystems auszulesen sind. Solche Metadaten bieten einen Mehrwert, doch die bisher unbekannten Metadaten aus dem Inhalt einer Datei sind noch wichtiger. Deswegen wird ein besonderes Augenmerk auf diese „versteckten“ Metadaten im Dateiinhalt gelegt, die mit verschiedenen Methoden extrahiert werden. Die Metadatenextraktion einer Datei wird dabei in drei Schritte unterteilt. Im ersten Schritt wird der Text und eventuell vorhandene Metadaten ausgelesen. Dazu wurden Parser für mehrere bekannte Dateiformate entwickelt sowie ein allgemeiner Parser, der auch aus den restlichen Formaten Informationen gewinnen kann. Die Parser wurden generisch implementiert, sodass eine Erweiterung durch neue Datenformate problemlos möglich ist. Selbst erstellte Templates bieten dem Nutzer die Möglichkeit auf Strukturen in Excel-Dateien einzugehen, um die Extraktion der aus Vorlagen entstandenen Dateien anpassen zu können. Im zweiten Schritt werden Metadaten aus dem erkannten Text extrahiert. Ein wichtiger Teil ist dabei die Extraktion von Schlüsselwörtern, die den Inhalt zusammenfasst. Hierzu wurden verschiedene Methoden implementiert, die wiederum leicht durch weitere ergänzt werden können. Außerdem können über White- und Blacklists Begriffe ein- oder ausgeschlossen werden sowie bestimmte Bestandteile eines Texts mit regulären Ausdrücken und User-Defined-Procedures extrahiert werden. Im dritten Schritt werden die Ergebnisse entweder als JSON-Datei (JavaScript Object Notation) auf dem System oder über eine REST-Schnittstelle (Representational State Transfer) in einer Datenbank gespeichert.
|
Department(s) | University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
|
Superviser(s) | Schwarz, PD Dr. Holger; Ziegler, Julian |
Entry date | December 22, 2021 |
---|