Benutzerspezifische Werkzeuge

Text Mining

Michaela Geierhos (unter Mitarbeit von Frederik S. Bäumer)

Text Mining (auch Text Data Mining oder Textual Data Mining) umfasst statistische und linguistische Ansätze zur maschinellen Erschließung unbekannter Informationen aus schwach oder nicht strukturierten Ressourcen.

Ziel des Text Minings ist es, extrahierte Informationen in einen (vormals unbekannten) Zusammenhang zu bringen sowie daraus Hypothesen abzuleiten und zu prüfen. Dies wird beispielsweise im Unternehmenskontext genutzt, um textbasierte Dokumente, E-Mails oder Nachrichten in sozialen Netzwerken performant zu verarbeiten und gewonnenes Wissen im Sinne unternehmerischer Ziele zu verwerten. Gegenstand des Text Minings ist eine für den Menschen alltäglich erscheinende Tätigkeit, die in der maschinellen Verarbeitung eine anspruchsvolle Aufgabe durch die Kombination unterschiedlicher Methoden zur Textvorverarbeitung (z. B. Satz- und Wortsegmentierung) und –analyse (z. B. Clustering-Verfahren, Mustererkennung) darstellt.

Text Mining vs. Data Mining

Es wird geschätzt, dass ein Großteil von bis zu 80% an Informationen in Textform vorliegt. Diese Informationen sind unstrukturiert und können mit klassischen Methoden des Data Minings nicht ausgewertet werden. Das Text Mining stellt hier als Unterform des Data Minings eine Abhilfe dar, wobei der Unterschied der Mining-Verfahren darin besteht, dass Text Mining auf natürlicher Sprache basiert und auf keine bekannte Datenstruktur oder Muster angewiesen ist.

Prozess

Der Text Mining-Prozess ähnelt dem Ablauf des Data Minings. Die insgesamt sechs Schritte sind sequenziell und nach Hippner und Rentmann (2006) wie folgt zu benennen:

  1. Aufgabendefinition
  2. Dokumentenselektion
  3. Dokumentaufbereitung
  4. (Text) Mining Methoden
  5. Interpretation / Evaluation
  6. Anwendung

Auf Grundlage einer definierten Problemstellung (1) werden unstrukturierte Dokumente ausgewählt, die der Beantwortung konkreter Fragestellungen dienen (2). Da diese Dokumente in unterschiedlichen Formaten vorliegen und unterschiedlicher Qualität sein können, ist eine Dokumentaufbereitung erforderlich (3). Die eigentliche Anwendung von (Text) Mining Methoden folgt auf die Dokumentaufbereitung und umfasst beispielsweise Methoden der Klassifikation, Segmentierung oder Abhängigkeitsanalyse. Somit können Texte je nach Problemstellung zusammengefasst, gruppiert oder hinsichtlich der verwendeten Terminologie analysiert werden.

Diese Verarbeitung von unstrukturierten Texten ist dabei herausfordernd, da Texte (insb. User Generated Content) lückenhaft, inkonsistent, vage und vielfach ambig sein können. Darüber hinaus variieren Texte nach Genre, Domäne und sogar Alter der Verfasser. Während die einen Texte einen erheblichen Anteil an Fachsprache beinhalten, können andere Texte in Alltagssprache und sehr kurz verfasst sein (z. B. Tweets). Auch sind Abkürzungen, Emoticons sowie Ironie und Sarkasmus erschwerend zu berücksichtigen. Letzteres ist insbesondere bei sozialen Netzwerken der Fall.

Um die Datenqualität vor der Anwendung zu überprüfen, existiert mit (5) Interpretation / Evaluation ein Verarbeitungsschritt, der explizit die Evaluation der Datenqualität unter dem Gesichtspunkt der Lösungsrelevanz für eine konkrete Problemstellung als Gegenstand hat. In diesem Schritt können besonders relevante Ergebnisse identifiziert werden; es können aber auch Ergebnisse aus der Gesamtheit an Ergebnissen entfernt werden.

Auf dieser evaluierten Datenbasis kann im letzten Schritt die (6) Anwendung erfolgen: Wie bereits eingangs erwähnt, sind Text Mining-Ansätze insbesondere im unternehmerischen Kontext von Bedeutung, erlauben sie doch die große Verarbeitung von Freitexten im Hinblick auf Konkurrenzanalyse, Trendforschung und Kundenzufriedenheitsanalyse. Letzteres ist Gegenstand des kontinuierlich durchgeführten Social Media Monitorings als Teilgebiet des Customer Satisfaction Monitorings.

Anwendungsbereiche

Im Zusammenhang mit dem Web 2.0 wird auch vom Web Mining gesprochen. Hierbei ist häufig das Ziel, die Stimmung des Netzes zu erfassen. Zu diesem Zweck werden mittels Sentiment Analysis (auch Stimmungsanalyse) Kundenmeinungen zu bestimmten Produkten oder Dienstleistungen auf Online-Bewertungsportalen oder in anderen sozialen Medien (z. B. Facebook, Twitter) hinsichtlich ihrer Polarität (d.h. positiven oder negativen Grundstimmung) strategisch ausgewertet.

Literatur

Heyer, G.; Quasthoff, U. & Wittig, Thomas: Text Mining: Wissensrohstoff Text, W3L Verlag, 2006

Hippner, H. & Rentzmann, R. Informatik Spektrum (2006) 29: 287. doi:10.1007/s00287-006-0091-y

Gentsch, P. & Hänlein, M.: Text Mining. In: WISU 12/99 (1999), S. 1646–1653

Fayyad, U.M.; Piatetsky-Shapiro, G. & Smyth, P.: From data mining to knowledge discovery: An overview.  In: Fayyad, U.M.; Piatetsky-Shapiro, G.; Smyth, P.; Uthurusamy, R. (Hrsg.): Advances in knowledge discovery and data mining. Menlo Park et al.: AAAI Press, 1996, S. 1-34.

 
 

Autor


 

Jun.-Prof. Dr. Michaela Geierhos, Universität Paderborn, Heinz-Nixdorf-Institut, Wirtschaftsinformatik, insb. CIM, Fürstenallee 11, 33102 Paderborn

Autoreninfo


 

Zuletzt bearbeitet: 12.12.2016 15:33
Letzter Abruf: 18.11.2017 07:06
Artikelaktionen