Bachelorarbeit BCLR-2018-47

Bibliograph.
Daten
Breyer, Marcel: Ein hoch-performanter (approximierter) k-Nächste-Nachbarn Algorithmus für GPUs.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Bachelorarbeit Nr. 47 (2018).
81 Seiten, deutsch.
Kurzfassung

In der heutigen Zeit, in der immer mehr Daten zur Verfügung stehen, gewinnt das Data-Mining zunehmendan Bedeutung. Insbesondere ist die Klassifizierung eine zentrale Methode des Data-Minings. Eine Möglichkeit Daten zu klassifizieren, stellt die Nächste-Nachbarn-Klassifikation dar. Dabei wird einem Objekt eine Klasse nur aufgrund dessen lokaler Nachbarschaft zugewiesen. Der naive Ansatz zur Lösung der Nächste-Nachbarn-Klassifikation setzt jedoch voraus, dass alle anderen Objekte in der Datenmenge betrachtet werden müssen, wodurch er eine quadratische Komplexität besitzt, was bei deren stetig wachsender Größe immer ineffizienter wird. Aufgrund dieser hohen Kosten, sind bei großen Datenmengen approximierende Verfahren attraktiv. Ein solches approximierendes Verfahren ist das in dieser Arbeit verwendete Locality Sensitive Hashing. Dieses Verfahren teilt alle Datenpunkte basierend auf deren Lokalisation durch spezielle Hash-Funktionen in Hash-Buckets auf. Mithilfe dieser Aufteilung müssen bei der Suche nach den Nächsten-Nachbarn nicht mehr alle Datenpunkte betrachtet werden. Zusätzlich zur Wahl des Algorithmus, muss jedoch auch auf eine hochperformante Implementierung für Grafikkarten geachtet werden. Dabei konnte auf NVIDIAs QUADRO GP100 Grafikkarte eine Laufzeitverbesserung um das bis zu 10-fache bei einer gleichzeitigen Genauigkeit von über 90%, gegenüber einer ebenfalls für Grafikkarten optimierten Implementierung des Naiven Algorithmus, für einen Datensatz mit 500 000 Datenpunkten in 10 Dimensionen beobachtet werden.

Volltext und
andere Links
Volltext
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Simulation großer Systeme
BetreuerPflüger, Jun.-Prof. Dirk; Pfander, David
Eingabedatum8. Januar 2019
   Publ. Institut   Publ. Informatik