Bachelor Thesis BCLR-2023-89

BibliographyWanders, Marc-Luca: Evaluation von Dataframe-basierten Datenverarbeitungsbibliotheken.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis No. 89 (2023).
63 pages, german.
Abstract

Das Ziel dieser Arbeit ist es, die Performanz des Python-Moduls Pandas der Versionen 1.5 und 2.0 mit fünf Alternativen zu vergleichen und anhand der Ergebnisse Empfehlungen auszusprechen. Um die Empfehlungen aufstellen zu können, wurden Pandas 1.5 und seine Verbesserungen von Version 2.0 sowie die alternativen Module zunächst näher betrachtet und ihre Funktionsweise, die sich in ihrem Aufbau unterscheidet, erläutert. \\ Anschließend wurden die Module anhand zweier Benchmarks, welche für die Messung implementiert wurden, gemessen. Es hat sich gezeigt, dass Pandas 2.0 besser performt als Pandas 1.5. Außerdem gibt es mit Polars eine Alternative, die durchweg besser performt als Pandas. Mit Vaex und Grizzly gibt es zwei Module, die in den meisten Kategorien besser als Pandas abgeschnitten haben. Bei Grizzly ist es nicht möglich externe Daten zu lesen, da die Funktion eine Exception auswirft und bei Vaex laufen User Defined Functions langsamer. Für die Bereiche Data Wrangling und deskriptive Statistik funktionieren beide Module sehr gut und sind daher zu empfehlen. Dask und Modin haben im Vergleich zu Pandas nicht besser abgeschnitten. Die einzige Kategorie, in der Dask gut abgeschnitten hat, ist bei der UDF. Da das Lesen und Schreiben sehr lange gedauert hat, ist Dask nur zu empfehlen, wenn sich der Lese- und Schreibaufwand durch große Datensätze lohnt. Modin konnte im Vergleich in keinem Bereich überzeugen, zeigte zudem starke Schwankungen zwischen Best- und Worstcase und ist daher nicht zu empfehlen.

Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Schwarz, Prof. Holger; Stach, Dr. Christoph
Entry dateApril 5, 2024
   Publ. Institute   Publ. Computer Science