Bibliography | Bernhardt, Alexander: Fokussiertes Webcrawling auf Basis von Aktivem Lernen. University of Stuttgart, Faculty of Computer Science, Electrical Engineering, and Information Technology, Bachelor Thesis (2016). 37 pages, german.
|
CR-Schema | H.3.3 (Information Search and Retrieval) I.7.2 (Document Preparation) I.7.5 (Document Capture)
|
Abstract | In dieser Bachelorarbeit wird der Frage nachgegangen, inwieweit es möglich ist, Informationen zu einem bestimmten Themengebiet aus dem World Wide Web zu extrahieren, die den Vorstellungen eines Benutzers entsprechen und zugleich keine enorme Datenmenge angesammelt wird. Um dies herauszufinden wurde ein fokussierterWebcrawler entwickelt, der um eine Nutzerschnittstelle erweitert wurde, damit das Paradigma Aktives Lernen umgesetzt werden konnte und somit die Klassifizierung zusätzlich gesteuert werden kann. Anhand von durchgeführten Experimenten wurde das entwickelte System evaluiert. Dazu wurde eine Datenmenge an Webseiten durch einen Benutzer manuell klassifiziert und anschließend versucht, durch die Konfiguration von dem Threshold-Parameter, die identische Datenmenge zu erzielen. Eine Konfiguration ergab nahezu das angestrebte Ziel und zeigte somit, dass Aktives Lernen in Verbindung mit der Klassifizierung von Webseiten durchaus sinnvoll ist.
|
Full text and other links | PDF (765940 Bytes) Access to students' publications restricted to the faculty due to current privacy regulations |
Department(s) | University of Stuttgart, Institute for Natural Language Processing
|
Superviser(s) | Padó, Prof. Sebastian, Klinger, Dr. Roman |
Entry date | September 26, 2018 |
---|