Bachelor Thesis BCLR-2016-16

BibliographyBernhardt, Alexander: Fokussiertes Webcrawling auf Basis von Aktivem Lernen.
University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis (2016).
37 pages, german.
CR-SchemaH.3.3 (Information Search and Retrieval)
I.7.2 (Document Preparation)
I.7.5 (Document Capture)
Abstract

In dieser Bachelorarbeit wird der Frage nachgegangen, inwieweit es möglich ist, Informationen zu einem bestimmten Themengebiet aus dem World Wide Web zu extrahieren, die den Vorstellungen eines Benutzers entsprechen und zugleich keine enorme Datenmenge angesammelt wird. Um dies herauszufinden wurde ein fokussierterWebcrawler entwickelt, der um eine Nutzerschnittstelle erweitert wurde, damit das Paradigma Aktives Lernen umgesetzt werden konnte und somit die Klassifizierung zusätzlich gesteuert werden kann. Anhand von durchgeführten Experimenten wurde das entwickelte System evaluiert. Dazu wurde eine Datenmenge an Webseiten durch einen Benutzer manuell klassifiziert und anschließend versucht, durch die Konfiguration von dem Threshold-Parameter, die identische Datenmenge zu erzielen. Eine Konfiguration ergab nahezu das angestrebte Ziel und zeigte somit, dass Aktives Lernen in Verbindung mit der Klassifizierung von Webseiten durchaus sinnvoll ist.

Full text and
other links
PDF (765940 Bytes)
Access to students' publications restricted to the faculty due to current privacy regulations
Department(s)University of Stuttgart, Institute for Natural Language Processing
Superviser(s)Padó, Prof. Sebastian, Klinger, Dr. Roman
Entry dateSeptember 26, 2018
   Publ. Computer Science