Diploma Thesis DIP-3171

BibliographyBaranovskiy, Evgeny: Methodik zur automatisierten Extraktion und Klassifikation semistrukturierter Produkt-und Adressdaten aus Webseiten.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Diploma Thesis No. 3171 (2011).
80 pages, german.
CR-SchemaH.3.1 (Content Analysis and Indexing)
H.3.2 (Information Storage)
H.3.3 (Information Search and Retrieval)
I.5.4 (Pattern Recognition Applications)
I.7.5 (Document Capture)
Abstract

Titel der DA: Methodik zur automatisierten Extraktion und Klassifikation semistrukturierter Produkt- und Adressdaten aus Webseiten

Kurzfassung: Diese Arbeit stellt eine neue Methodik für die automatisierte Extraktion und Klassifikation von Daten aus Webseiten vor. Die Methodik EH („Extraction Heuristics“) ist für die Domänen der Produkt- und Adressdaten konzipiert und erlaubt die Erweiterung um zusätzliche Domänen. Der Bedarf nach einer sol-chen Methodik ist groß, weil die Vielfalt von Informationen auf Websites eine lukrative Da-tenquelle darstellt. Mit den vorhandenen Werkzeugen und Verfahren lassen sich die Inhalte von Websites nur in einem begrenzten Umfang extrahieren, wobei sich eine Reihe von Nach-teilen für den Benutzer ergeben. Zudem bieten die vorhandenen Werkzeuge keinerlei Mög-lichkeit zur Klassifikation der extrahierten Daten. Die Methodik EH bietet einen einfachen und erweiterbaren Prozess, der alle Teilaufgaben der Extraktion und Klassifikation von Daten aus Webseiten abdeckt und durch das hohe Maß an Automatisierung den Benutzer entlastet. Mit der prototypischen Implementierung der Methodik EH in einer Anwendung xScraper wurden fünfzig Websites der Datenextraktion und Klassifikation unterzogen. Die Evaluation anhand von verschiedenen Kriterien hat die Wirksamkeit der Methodik bewiesen.

Full text and
other links
PDF (3616816 Bytes)
Department(s)University of Stuttgart, Institute of Parallel and Distributed Systems, Applications of Parallel and Distributed Systems
Superviser(s)Schwarz, Holger; Kintz, Maximilien; Horch, Andrea
Entry dateOctober 21, 2011
   Publ. Computer Science