Diplomarbeit DIP-3171

Bibliograph.
Daten
Baranovskiy, Evgeny: Methodik zur automatisierten Extraktion und Klassifikation semistrukturierter Produkt-und Adressdaten aus Webseiten.
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik, Diplomarbeit Nr. 3171 (2011).
80 Seiten, deutsch.
CR-Klassif.H.3.1 (Content Analysis and Indexing)
H.3.2 (Information Storage)
H.3.3 (Information Search and Retrieval)
I.5.4 (Pattern Recognition Applications)
I.7.5 (Document Capture)
Kurzfassung

Titel der DA: Methodik zur automatisierten Extraktion und Klassifikation semistrukturierter Produkt- und Adressdaten aus Webseiten

Kurzfassung: Diese Arbeit stellt eine neue Methodik für die automatisierte Extraktion und Klassifikation von Daten aus Webseiten vor. Die Methodik EH („Extraction Heuristics“) ist für die Domänen der Produkt- und Adressdaten konzipiert und erlaubt die Erweiterung um zusätzliche Domänen. Der Bedarf nach einer sol-chen Methodik ist groß, weil die Vielfalt von Informationen auf Websites eine lukrative Da-tenquelle darstellt. Mit den vorhandenen Werkzeugen und Verfahren lassen sich die Inhalte von Websites nur in einem begrenzten Umfang extrahieren, wobei sich eine Reihe von Nach-teilen für den Benutzer ergeben. Zudem bieten die vorhandenen Werkzeuge keinerlei Mög-lichkeit zur Klassifikation der extrahierten Daten. Die Methodik EH bietet einen einfachen und erweiterbaren Prozess, der alle Teilaufgaben der Extraktion und Klassifikation von Daten aus Webseiten abdeckt und durch das hohe Maß an Automatisierung den Benutzer entlastet. Mit der prototypischen Implementierung der Methodik EH in einer Anwendung xScraper wurden fünfzig Websites der Datenextraktion und Klassifikation unterzogen. Die Evaluation anhand von verschiedenen Kriterien hat die Wirksamkeit der Methodik bewiesen.

Volltext und
andere Links
PDF (3616816 Bytes)
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
BetreuerSchwarz, Holger; Kintz, Maximilien; Horch, Andrea
Eingabedatum21. Oktober 2011
   Publ. Informatik