Diplomarbeit DIP-2277

Bibliograph.
Daten
Müller, Thorsten: Statistikpropagation und Kostenschätzung für Anfragesequenzen.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Diplomarbeit Nr. 2277 (2005).
106 Seiten, deutsch.
CR-Klassif.H.2.4 (Database Management Systems)
G.3 (Probability and Statistics)
KeywordsAnfrageoptimierung; Datenbankstatistiken; Datenbanksysteme; Histogramme; Kostenschätzung; Kardinalitätsschätzung; Statistikpropagation; SQL
Kurzfassung

Aufgabe dieser Diplomarbeit ist es, die theoretischen Grundlagen für die Propagation von Statistiken und Kardinalitätsschätzwerten innerhalb von Datenbankanfragen und zwischen einzelnen Anfragen einer Anfragesequenz zu erarbeiten. Im Rahmen dieser Arbeit gilt eine Anfragesequenz als eine Folge von Anfragen, die eine Fragestellung berechnen, die zu komplex ist um noch sinnvoll in einer einzelnen Anfrage ausgeführt zu werden. Innerhalb dieser Sequenz kann jede Anfrage auf die Ergebnisse vorangegangener Anfragen aus der Sequenz zugreifen. Eine einzelne Anfrage stellt nur einen Berechnungsschritt zum Gesamtergebnis dar, dessen Ergebnis in einer temporären Tabelle abgespeichert wird, die nach Abarbeitung der Anfragesequenz wieder gelöscht wird.

Heutige Datenbanksysteme können zwar bereits die Kosten und die Kardinalität des Ergebnisses einzelner Anfragen abschätzen, jedoch nicht für eine Anfragesequenz, die mehrere voneinander abhängige Anfragen enthält. Dies liegt daran, dass es keine entsprechende Schnittstelle für die Kostenabschätzung solcher Statement-Folgen gibt. Darüber hinaus werden bisher nur die Kosten und die Ergebniskardinalität, nicht aber die Werteverteilung des Ergebnisses abgeschätzt und propagiert. Jeder neue Berechnungsschritt greift wieder auf die unveränderten Basistabellen zurück.

Um die Propagation der kompletten Statistiken zu ermöglichen wurde in dieser Arbeit ermittelt, welche statistischen Verfahren zur Approximation der Datenverteilung in relationalen Datenbanken existieren. Für das weitverbreitetste dieser Verfahren, den Histogrammen wurden Algorithmen entwickelt um diese Statistiken verarbeiten und verknüpfen zu können.

Volltext und
andere Links
PDF (1625921 Bytes)
PostScript (18794686 Bytes)
Zugriff auf studentische Arbeiten aufgrund vorherrschender Datenschutzbestimmungen nur innerhalb der Fakultät möglich
CopyrightThorsten Müller
KontaktSenden Sie eine e-Mail an muellerthorsten@gmx.de
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
Projekt(e)ORBIT
Eingabedatum2. Mai 2005
   Publ. Abteilung   Publ. Institut   Publ. Informatik