Diploma Thesis DIP-2277

BibliographyMüller, Thorsten: Statistikpropagation und Kostenschätzung für Anfragesequenzen.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Diploma Thesis No. 2277 (2005).
106 pages, german.
CR-SchemaH.2.4 (Database Management Systems)
G.3 (Probability and Statistics)
KeywordsAnfrageoptimierung; Datenbankstatistiken; Datenbanksysteme; Histogramme; Kostenschätzung; Kardinalitätsschätzung; Statistikpropagation; SQL
Abstract

Aufgabe dieser Diplomarbeit ist es, die theoretischen Grundlagen für die Propagation von Statistiken und Kardinalitätsschätzwerten innerhalb von Datenbankanfragen und zwischen einzelnen Anfragen einer Anfragesequenz zu erarbeiten. Im Rahmen dieser Arbeit gilt eine Anfragesequenz als eine Folge von Anfragen, die eine Fragestellung berechnen, die zu komplex ist um noch sinnvoll in einer einzelnen Anfrage ausgeführt zu werden. Innerhalb dieser Sequenz kann jede Anfrage auf die Ergebnisse vorangegangener Anfragen aus der Sequenz zugreifen. Eine einzelne Anfrage stellt nur einen Berechnungsschritt zum Gesamtergebnis dar, dessen Ergebnis in einer temporären Tabelle abgespeichert wird, die nach Abarbeitung der Anfragesequenz wieder gelöscht wird.

Heutige Datenbanksysteme können zwar bereits die Kosten und die Kardinalität des Ergebnisses einzelner Anfragen abschätzen, jedoch nicht für eine Anfragesequenz, die mehrere voneinander abhängige Anfragen enthält. Dies liegt daran, dass es keine entsprechende Schnittstelle für die Kostenabschätzung solcher Statement-Folgen gibt. Darüber hinaus werden bisher nur die Kosten und die Ergebniskardinalität, nicht aber die Werteverteilung des Ergebnisses abgeschätzt und propagiert. Jeder neue Berechnungsschritt greift wieder auf die unveränderten Basistabellen zurück.

Um die Propagation der kompletten Statistiken zu ermöglichen wurde in dieser Arbeit ermittelt, welche statistischen Verfahren zur Approximation der Datenverteilung in relationalen Datenbanken existieren. Für das weitverbreitetste dieser Verfahren, den Histogrammen wurden Algorithmen entwickelt um diese Statistiken verarbeiten und verknüpfen zu können.

Full text and
other links
PDF (1625921 Bytes)
PostScript (18794686 Bytes)
Access to students' publications restricted to the faculty due to current privacy regulations
CopyrightThorsten Müller
ContactSenden Sie eine e-Mail an muellerthorsten@gmx.de
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Project(s)ORBIT
Entry dateMay 2, 2005
   Publ. Department   Publ. Institute   Publ. Computer Science