WebFountain
Text Mining, seltener auch Textmining, Text Data Mining oder Textual Data Mining, ist ein Bündel von Datenanalyseverfahren, die die algorithmusassistierte Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten ermöglichen soll. Mit statistischen und linguistischen Mitteln erschließt Text-Mining-Software aus Texten Strukturen, die die Benutzer in die Lage versetzen sollen, Kerninformationen aus den verarbeiteten Texten schnell zu erschließen. Text-Mining-Systeme liefern im Optimalfall Informationen, von denen Benutzer bisher nicht wussten, dass sie existieren. Im Zusammenspiel mit ihren Anwendern sind Werkzeuge des Text Minings außerdem dazu in der Lage, Hypothesen zu generieren, diese zu überprüfen und schrittweise zu verfeinern.
Inhaltsverzeichnis
[Verbergen]Konzept[Bearbeiten]
Das 1995 von Ronen Feldman und Ido Dagan als „Knowledge Discovery from Text (KDT)“[1] in die Forschungsterminologie eingeführte Text Mining[2] ist kein klar definierter Begriff. In Analogie zu Data Mining im KDD ist Text Mining ein weitgehend automatisierter Prozess der Wissensentdeckung in textuellen Daten, der eine effektive und effiziente Nutzung verfügbarer Textarchive ermöglichen soll.[3] Umfassender kann Text Mining als ein Prozess der Zusammenstellung, Organisation und Analyse großer Dokumentsammlungen zur bedarfsgerechten Extrahierung von Informationen und der Entdeckung versteckter Beziehungen zwischen Texten und Textfragmenten gesehen werden.
Typologien[Bearbeiten]
Aufgrund widersprüchlicher Literatur und nicht vereinheitlichtem Forschungsgegenstand entwickeln Mehler und Wolff vier Perspektiven auf das Text Mining:
- Information Retrieval (IR) Perspektive: Verbesserung des IR durch Textzusammenfassung und Informationsextraktion
- Data Mining-Perspektive: Text Mining als „Data Mining auf textuelle Daten“, Exploration von (interpretationsbedürftigen) Daten aus Texten.
- Methodische Perspektive: Text Mining als „eine Menge von Methoden zur (halb-)automatischen Auswertung großer Mengen natürlich-sprachlicher Texte“
- Wissensorientierte Perspektive: Abgrenzung der korpusanalytischen Computerlinguistik und des inhaltsbasierten IR vom Text Mining. Text Mining als textbasierte Datenanalyse zur Exploration von „bisher unbekannter“, „nie zuvor gesehenen“ Information.
Verwandte Verfahren[Bearbeiten]
Textmining ist mit einer Reihe anderer, zumeist einigen anderen texttechnologischer, Verfahren verwandt, von denen es wie folgt abgegrenzt wird.
Am stärksten ähnelt Text Mining dem Data Mining. Mit diesem teilt es viele Verfahren, nicht jedoch den Gegenstand: Während Data Mining zumeist auf stark strukturierte Daten angewandt wird, befasst sich Text Mining mit wesentlich schwächer strukturierten Textdaten. Beim Text Mining werden deshalb in einem ersten Schritt die Primärdaten stärker strukturiert, um ihre Erschließung mit Verfahren des Data Mining zu ermöglichen.[4] Anders als bei den meisten Aufgaben des Data Mining sind zudem Mehrfachklassifikationen beim Text Mining meist ausdrücklich erwünscht.[5]
Des weiteren greift Text Mining auf Verfahren des Information Retrieval zurück, die für die Auffindung derjenigen Textdokumente, die für die Beantwortung einer Suchanfrage relevant seien sollen, konzipiert sind.[6] Im Gegensatz zum Text Mining werden also nicht möglicherweise unbekannte Bedeutungsstrukturen im Gesamttextmaterial erschlossen, sondern anhand von bekannten Schlüsselwörtern eine Menge relevant erhoffter Einzeldokumenten identifiziert.[7]
Verfahren der Informationsextraktion zielen darauf, aus Texten einzelne Fakten zu extrahieren. Informationsextraktion verwendet oft die gleichen oder ähnliche Verfahrenssschritte wie dies im Text Mining getan wird;[8] bisweilen wird Informationsextraktion deshalb als Teilgebiet des Text Mining betrachtet.[9] Im Gegensatz zu (vielen anderen Arten des) Text Mining sind hier aber zumindest die Kategorien bekannt, zu denen Informationen gesucht werden - der Benutzer weiß, was er nicht weiß.
Verfahren des automatischen Zusammenfassens von Texten, der Text Extraction erzeugen ein Kondensat von einem Text oder einer Textsammlung, jedoch anders als Text Mining ohne über das in den Texten explizit Vorhandene hinauszugehen zu wollen.
Anwendungsgebiete[Bearbeiten]
Web Mining, insbesondere Web Content Mining, ist ein wichtiges Anwendungsgebiet für Text Mining.[10] Noch relativ neu sind Versuche, Text Mining als Methode der sozialwissenschaftlichen Inhaltsanalyse zu etablieren.
Methodik[Bearbeiten]
Text Mining geht in mehreren Standardschritten vor: Zunächst wir ein geeignetes Datenmaterial ausgewählt. In einem zweiten Schritt werden diese Daten so aufbereitet, dass sie im Folgenden mittels verschiedener Verfahren analysiert werden können. Schließlich nimmt die Ergebnispräsentation einen ungewöhnlich wichtigen Teil des Verfahrens ein. Alle Verfahrensschritte werden dabei softwareunterstützt.
Datenmaterial[Bearbeiten]
Text Mining wird auf eine (meist sehr große) Menge von Textdokumenten angewandt, die gewisse Ähnlichkeiten hinsichtlich ihrer Größe, Sprache und Thematik aufweisen.[11] In der Praxis stammen diese Daten meist aus umfangreichen Textdatenbanken wie PubMed oder LexisNexis.[11] Die analysierten Dokumente sind unstrukturiert in dem Sinn, dass sie keine keine einheitliche Datenstruktur vorliegt, man spricht deshalb auch von „freiem Format“.[12] Trotzdem weisen sie jedoch semantische, syntaktische, oft auch typographische und seltener auch markup-spezifische Strukturmerkmale auf, auf Text-Mining-Techniken zurückgreifen; man spricht deshalb auch von schwachstrukturierten oder halbstrukturierten Textdaten.[13] Meist entstammen die zu analysierenden Dokumente aus einem gewissen Diskursuniversum (domain), das mehr (z. B. Genomanalyse oder weniger (z. B. Soziologie) stark abgegrenzt sein kann.[14]
Datenaufbereitung[Bearbeiten]
Text Mining setzt daher eine linguistische Aufbereitung der Dokumete voraus. Diese basiert typischerweise auf den folgenden, nur zum Teil automatisierbaren Schritten:
Zur Textrepräsentation wird ein Dokument zumeist anhand von Schriftzeichen, Wörtern, Begriffen (terms) und/oder so genannten concepts tokenisiert.[15] Dabei steigt bei vorstehenden Einheiten die Stärke der semantischen Bedeutung, aber gleichzeitig auch die Komplexität ihrer Operationalisierung, oft werden deshalb Hybridverfahren zur Tokenisierung angewandt.[16]
Um Daten für das eigentliche Text Mining vorzubereiten, müssen eine Reihe linguistischer Probleme, insbesondere Polysemie – die Mehrdeutigkeit von Wörtern – und Synonymie – die Gleichbedeutung verschiedener Worte –, gelöst werden.
- Die Phrasen und Wörter müssen linguistisch klassifiziert werden (Part-of-speech Tagging; siehe auch Wortart).
- Die grammatische Struktur von Sätzen muss ermittelt werden (mit einem Parser), was eine morphologische Analyse einschließen kann.
- Pronomen (er, sie) müssen den vorausgehenden oder folgenden Nominalphrasen (Goethe, die Polizisten), auf die sie verweisen, zugeordnet werden (Anaphernresolution).
- Eigennamen für Personen, Orte, von Firmen, Staaten usw. müssen erkannt werden, da sie eine andere Rolle für die Konstitution der Textbedeutung haben als generische Substantive.
- Mehrdeutigkeit von Wörtern und Phrasen wird dadurch aufgelöst, dass jedem Wort und jeder Phrase genau eine Bedeutung zugeschrieben wird (Bestimmung der Wortbedeutung, Disambiguierung).
- Einige Wörter und Satz(teile) können einem Fachgebiet zugeordnet werden (Termextraktion).
- Die Bedeutungsbeziehungen zwischen einzelnen Wörtern und Phrasen muss erkannt werden. Auf diese Weise können unterschiedliche Formulierungen eines Sachverhalts (Synonymie, Hyperonymie) erkannt und einander zugeordnet werden.
Um die Semantik der analysierten Textdaten besser bestimmen zu können, wird meist auch auf themenspezifisches Wissen zurückgegriffen.[14] Computerlinguistische Verfahren, die diese Aufgaben lösen sollen, benötigen kodiertes Wissen verschiedener Art, z. B.
- Wörterbücher, in denen die Wortart(en) und Bedeutung(en) von Wörtern und Phrasen registriert sind,
- Ontologien, die darüber hinaus den spezifischen Wortschatz eines Fachgebiets und die Beziehungen zwischen den Fachwörtern kodieren,
- Listen von Eigennamen, z. B. für Länder, Städte, Firmen,
- Listen von häufig verwendeten Abkürzungen.
Diese Ressourcen sind für jede Sprache und teilweise für jedes Fachgebiet neu zu erstellen. Ihre Erstellung ist zeitaufwendig und kostenintensiv. Die Computerlinguistik ist deshalb bestrebt, den Bedarf an solchen externen Informationen so gering wie möglich zu halten und die vorhandenen Daten wiederzuverwenden.
Nach dem heutigen Stand der Technik werden die linguistisch analysierten Textdaten annotiert. Dies geschieht so, dass jeder textuellen Einheit die linguistischen Beschreibungen zugeordnet werden. XML ist eine hierfür besonders gut geeignete Annotationssprache. Den Texten als Ganzes können darüber hinaus Metadaten zugeordnet werden.
Analyseverfahren[Bearbeiten]
Auf der Grundlage dieser partiell strukturierten Daten können die eigentlichen Text-Mining-Verfahren aufbauen, die vor allem auf der Entdeckung von Kookkurrenzen, idealiter zwischen concepts, basieren.[17] Diese Verfahren sollen:
- In Texten implizit vorhandene Informationen explizit machen
- Beziehungen zwischen Informationen, die in verschiedenen Texten repräsentiert sind, sichtbar machen.
Hierzu werden Methoden der explorativen Datenanalyse und des logischen Schließens verwendet. Eine große Rolle bei der Entwicklung solcher Verfahren spielt das maschinelle Lernen, sowohl in seiner überwachten als auch in seiner unüberwachten Variante.
Zwei Beispiele:
- Eine Menge von Dokumenten wird in einen hochdimensionalen Vektorraum (100.000 Dimensionen und mehr) von Termen und Termhäufigkeiten überführt. Die so entstandene Matrix wird durch Singulärwertzerlegung in eine niederdimensionale Matrix zerlegt (mit mehreren Hundert Dimensionen). Die Auswertung von Beziehungen zwischen Dokumenten durch diese reduzierte Matrix ermöglicht es, Dokumente zu ermitteln, die sich auf denselben Sachverhalt beziehen, obwohl ihr Wortlaut verschieden ist. Auswertung von Beziehungen zwischen Termen in dieser Matrix ermöglicht es, assoziative Beziehungen zwischen Termen herzustellen, die oftmals semantischen Beziehungen entsprechen und in einer Ontologie repräsentiert werden können.
- In Anlehnung an Verfahren des Datamining kann in Texten nach (lexikalischen) Assoziationen gesucht und diese nach ihrer Stärke bewertet werden. So lässt sich z. B. eine starke Assoziation zwischen dem Namen eines Medikaments und negativen Prädikationen schließen, das in dem durch die Texte repräsentierten Diskurs dieses Medikament in schlechtem Ruf steht. Die Erkennung von Assoziationen setzt voraus, dass die Probleme, die Synonymie und Polysemie in natürlichsprachlichen Texten einer solchen Datenanalyse bereiten, weitgehend gelöst sind.
Ergebnispräsentation[Bearbeiten]
Einen ungewöhnlich wichtigen und komplexen Teil des Text Mining nicmmt die Präsentatuon der Ergebnisse ein.[18] Darunter fallen sowohl Werkzeuge zum Browsing als auch zur Visualisierung der Ergebnisse.[18] So wird versucht, Fakten und Themen und deren Zusammenhänge landkartenähnlich zu präsentieren. So können Benutzer verdeckte Zusammenhänge besser erkennen.
Software[Bearbeiten]
Eine Reihe von Anwendungsprogrammen für Text Mining existieren; manche davon sind Teil von Softwaresuiten zum Data Mining oder zur Inhaltsanalyse, andere sind auf Text Mining, oft im Hinblick auf bestimmte Wissensgebiete, spezialisiert.
- RapidMiner
- NClassifier
- Leximancer
- LingPipe
- SPSS Clementine
- WebFountain
Eine der am weitesten entwickelten Text-Mining-Infrastrukturen ist WebFountain, das von IBM entwickelt wurde. Webfountain stellt Speicherplatz, Rechenzeit, Daten und Textmining-Methoden zur Verfügung. Dienstleister, die diese Infrastruktur gegen Lizenzgebühren nutzen, können auf dieser Basis avancierte Informationsdienstleistungen für Firmenkunden, in Zukunft vielleicht auch für Privatkunden, anbieten. Die meisten Anwendungen versuchen dabei, aus den Daten Muster und Trends herauszudestillieren. Zu den geplanten und zum Teil schon realisierten Anwendungen gehören:
- Ein Dienst, der die Entwicklung der Reputation von Firmen und Produkten auf Grund einschlägiger Diskussionsbeiträge in Newsgroups, Weblogs usw. verfolgt;
- Ein Dienst, der im Auftrag von Banken Versuche von Geldwäsche ermittelt;
- Eine Suchmaschine für Informationen aus dem Finanzsektor, die thematisch einschlägige Artikel identifizieren und thematische Entwicklungen verfolgen kann.
- Ein Dienst, der ermittelt, ob bestimmte pharmazeutische Produktentwicklungen bereits stattgefunden haben und ob diese Versuche erfolgreich waren bzw. warum sie scheiterten.
- Überwachung von Firmeninternen Netzwerken "Extrusion prevention" - um sicherzustellen, dass keine geheimen Daten die Firma verlassen.
- Geheimdienstliche Überwachung von Medien, Staaten, Minderheiten und anderen Personengruppen
- Spamchecker: Software die Werbungsmails von sinnvollen bzw. erwünschten Zusendungen unterscheiden kann.
- Suchmaschinen für Nachforschungen jeglicher Art: Das Informationsangebot via Internet, Radio, Fernsehen, Zeitschriften und sonstigen in digitaler Form vorhandenen Daten ist bei weitem unüberschaubar. Software die diese durcharbeitet und die jeweils gesuchte Information aufbereitet und darstellt wird immer wichtiger.
Linkanalyse[Bearbeiten]
Belege[Bearbeiten]
- Hochspringen ↑ Ronen Feldman: Knowledge Discovery in Texts. In: First International Conference on Knowledge Discovery (KDD) ., S. 112-117..
- Hochspringen ↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20, Nr. 1, 2005, S. 19-62, S. 22. Abgerufen am 11. November 2009..
- Hochspringen ↑ Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20, Nr. 1, 2005, S. 1-18, S 2. .
- Hochspringen ↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20, Nr. 1, 2005, S. 19-62, S. 23. Abgerufen am 11. November 2009..
- Hochspringen ↑ Max Bramer: Principles of Data Mining. Springer, London, U.K. 2007, ISBN 978-1-84628-765-7, S. 239f.
- Hochspringen ↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20, Nr. 1, 2005, S. 19-62, S. 23f. Abgerufen am 11. November 2009..
- Hochspringen ↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20, Nr. 1, 2005, S. 19-62, S. 24. Abgerufen am 11. November 2009..
- Hochspringen ↑ Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20, Nr. 1, 2005, S. 19-62, S. 45ff. Abgerufen am 11. November 2009..
- Hochspringen ↑ z. B. Fabrizio Sebastiani: Machine learning in automated text categorization. In: ACM Computing Surveys. 34, Nr. 1, 2002, S. 1-47, S. 2..
- Hochspringen ↑ Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. 20, Nr. 1, 2005, S. 1-18, S 7-9. Abgerufen am 11. November 2009..
- ↑ Hochspringen nach: 11,0 11,1 Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5..
- Hochspringen ↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 3..
- Hochspringen ↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 3f..
- ↑ Hochspringen nach: 14,0 14,1 Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 8..
- Hochspringen ↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 6f..
- Hochspringen ↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 7..
- Hochspringen ↑ Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 8f..
- ↑ Hochspringen nach: 18,0 18,1 Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5, S. 10..
Literatur[Bearbeiten]
- Gerhard Heyer, Uwe Quasthof, Thomas Wittig: Text Mining: Wissensrohstoff Text—Konzepte, Algorithmen, Ergebnisse, W3L Verlag, Herdecke, Bochum, 2006, ISBN 3-937137-30-0.
- Mehler, Alexander und Wolff, Christian (2005), Einleitung: Perspektiven und Positionen des Text Mining, In: Zeitschrift für Computerlinguistik und Sprachtechnologie, Band 20, Heft 1, Seite 1-18, Regensburg, Deutschland.
- Mehler, Alexander: Textmining in Lemnitzer, Lothar/Lobin, Henning (Hrsg.): Texttechnologie. Perspektiven und Anwendungen. Stauffenburg, Tübingen, 2004, S. 329-352 ISBN 3-8605-7287-3.
- Franke, Jürgen und Nakhaeizadeh, Gholamreza und Renz, Ingrid (Editoren): Text Mining—Theoretical Aspects and Applications, Physica-Verlag, Berlin, 2003.
- Feldman, Ronen und Sanger, James: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2006, ISBN 0521836573.
- Buch, Bastian: Text Mining zur automatischen Wissensextraktion aus unstrukturierten Textdokumenten, VDM Verlag, 2008, ISBN 3836495503