Artikel in Tagungsband INPROC-2019-07

Bibliograph.
Daten
Kiefer, Cornelia: Quality Indicators for Text Data.
In: Meyer, Holger (Hrsg); Ritter, Norbert (Hrsg); Thor, Andreas (Hrsg); Nicklas, Daniela (Hrsg); Heuer, Andreas (Hrsg); Klettke, Meike (Hrsg): 18. Fachtagung des GI-Fachbereichs ,,Datenbanken und Informationssysteme (DBIS), 4.-8. März 2019, Rostock, Germany, Workshopband..
Universität Stuttgart, Fakultät Informatik, Elektrotechnik und Informationstechnik.
Dagstuhl Reports, S. 145-154, englisch.
Bonn: Gesellschaft f\"{u}r Informatik e.V. (GI), 4. März 2019.
Artikel in Tagungsband (Konferenz-Beitrag).
KörperschaftDatenbanksysteme für Business, Technologie und Web (BTW 2019)
CR-Klassif.I.2.7 (Natural Language Processing)
Keywordsdata quality; text data quality; text mining; text analysis; quality indicators for text data
Kurzfassung

Textual data sets vary in terms of quality. They have different characteristics such as the average sentence length or the amount of spelling mistakes and abbreviations. These text characteristics have influence on the quality of text mining results. They may be measured automatically by means of quality indicators. We present indicators, which we implemented based on natural language processing libraries such as Stanford CoreNLP and NLTK. We discuss design decisions in the implementation of exemplary indicators and provide all indicators on GitHub. In the evaluation, we investigate freetexts from production, news, prose, tweets and chat data and show that the suggested indicators predict the quality of two text mining modules.

Volltext und
andere Links
Online verfügbar unter
Abteilung(en)Universität Stuttgart, Institut für Parallele und Verteilte Systeme, Anwendersoftware
Projekt(e)GSaME-NFG
Eingabedatum7. Mai 2019
   Publ. Abteilung   Publ. Institut   Publ. Informatik