Was ist Data Mining?Data Mining ist die systematische Anwendung statistischer und durch Künstliche Intelligenz gestützte Methoden, um in vorhandenen Datenbeständen automatisch Muster, Trends, Querverbindungen oder Zusammenhänge zu finden. Data Mining wird dabei oft, aber fälschlicherweise, synonym für „Knowledge Discovery in Databases“ verwendet. KDD beinhaltet aber auch Vorverarbeitung und Auswertung und ist dem Data Mining daher übergeordnet. Show
Data Mining ist notwendig und motiviert durch Big Data: Riesige Datenmengen, die durch verschiedene Tools relativ leicht gesammelt werden können, die aber manuell kaum zu analysieren sind. Um Wissensverlust vorzubeugen, wird es branchen- und disziplinübergreifend eingesetzt. Gegenüber den klassischen statistischen Verfahren hat Data Mining den Vorteil, dass nicht nur manuell aufgestellte Hypothesen be- oder widerlegt werden, sondern neue Thesen generiert und so Entscheidungsprozesse angepasst und validiert werden können. Data Mining und Machine Learning (Maschinelles lernen)Oberflächlich betrachtet stellen Data Mining und Maschinelles Lernen ein gegensätzliches Paar bei der Arbeit mit großen Datenmengen dar. Beim Maschinellen Lernen werden vordergründig bekannte Muster in neuen Datensätzen wiedererkannt. Umgekehrt wird Data Mining genutzt, um neue Zusammenhänge zu erkennen und zu verarbeiten (ähnlich funktioniert das sogenannte unüberwachte Lernen beim maschinellen Lernen). Ganz voneinander lösen lassen sich deswegen die beiden Prozesse aufgrund der vielen Gemeinsamkeiten nicht. Mithilfe von Data Mining zusammengetragene Erkenntnisse, Regeln und Muster werden für das maschinelle Lernen gebraucht. Abgrenzung zum Text MiningDas Text Mining ist eine dem Data Mining ähnliche Verfahrensweise, allerdings wird es nicht auf Big Data sondern auf natürlich-sprachliche Quellen oder Dokumente angewendet. Mit Hilfe von statistischen und linguistischen Methoden gewinnt eine Text-Mining-Software Strukturen, Muster, Bedeutungszusammenhänge und Kerninformationen, die dem Nutzer helfen, den wesentlichen Inhalt des Textes zu erfassen, ohne ihn komplett lesen zu müssen. Diese Prozesse sind weitgehend automatisiert. Im Anschluss wird auf die gewonnenen Daten aus den Texten oft ein Data Mining Verfahren angewendet, um die Daten und die zugrunde liegenden Texte in Beziehung zu setzen und hier Zusammenhänge und Verbindungen zu erkennen. Entlehnte Verfahren aus dem Information Retrieval (IR) ermöglichen es außerdem, Kerndaten und Informationen zu erfassen, die zur Beantwortung von Suchanfragen dienen. In Datenbanken mit einer großen Anzahl von Quellen werden so die relevanten Einzeldokumente identifiziert. Quellen:
Was es ist und was man darüber wissen sollteMaschinelles Lernen ist eine Datenanalysemethode, die die automatische Erstellung von Analysemodellen ermöglicht. Maschinelles Lernen ist ein Zweig der künstlichen Intelligenz und basiert auf dem Gedanken, dass Systeme aus Daten lernen, Muster erkennen und Entscheidungen treffen können – mit minimaler menschlicher Intervention. Die Evolution des maschinellen LernensAufgrund neuer Computertechnologien hat maschinelles Lernen heute nicht mehr viel Ähnlichkeit mit maschinellem Lernen in der Vergangenheit. Es entstand aus der Mustererkennung und der Theorie, dass Computer lernen können, bestimmte Aufgaben auszuführen, ohne dafür programmiert zu werden. Forscher, die sich für künstliche Intelligenz interessierten, stellten sich die Frage, ob Computer aus Daten lernen können. Wiederholungen sind ein wesentlicher Aspekt des maschinellen Lernens, denn dieses beruht darauf, dass Modelle sich selbstständig anpassen, wenn man sie mit immer neuen Daten füttert. Das heißt, sie lernen aus vorherigen Berechnungen und generieren auf dieser Grundlage zuverlässige, wiederholbare Entscheidungen und Ergebnisse. Es handelt sich zwar nicht um eine neue Wissenschaft, jedoch erlebt sie gerade einen neuen Aufschwung. Zwar existieren viele mathematische Algorithmen für das maschinelle Lernen schon sehr lange. Aber die Möglichkeit, komplexe mathematische Berechnungen automatisch auf enorme Datenmengen anzuwenden – immer wieder und immer schneller –, ist neu. Hier ein paar Beispiele für die praktische Anwendung maschinellen Lernens, die ein großes Medienecho gefunden haben und daher inzwischen weithin bekannt sind:
Maschinelles Lernen und künstliche Intelligenz:Künstliche Intelligenz (KI) ist das große wissenschaftliche Forschungsgebiet der Simulation menschlicher Fähigkeiten und maschinelles Lernen ist ein Teilgebiet der KI mit dem Ziel, Maschinen so zu trainieren, dass sie selbstständig lernen können. Sehen Sie sich das Video an! Es erklärt die Zusammenhänge zwischen KI und maschinellem Lernen. Sie erfahren, wie diese beiden Technologien funktionieren – anhand von Beispielen
und einigen unterhaltsamen Anmerkungen. Gängige Methoden des maschinellen LernensDie beiden am weitesten verbreiteten Methoden beim maschinellen Lernen sind überwachtes Lernen und unüberwachtes Lernen – aber daneben gibt es noch eine Reihe weiterer Methoden. Hier ein Überblick über die gängigsten Methoden. Überwachtes Lernen (Supervised Learning) – der Algorithmus trainiert anhand von gegebenen Paaren von Ein- und Ausgaben (Labels). Beispielsweise könnten die Datenpunkte eines Geräteteils mit „F“ (ausgefallen) oder „R“ (läuft) gekennzeichnet sein. Der Lernalgorithmus erhält eine Reihe von Eingaben samt zugehörigen (korrekten) Ausgaben. Er vergleicht seine tatsächliche Ausgabe mit den korrekten Ausgaben, erkennt seine Fehler und lernt auf diese Weise. Dementsprechend modifiziert er anschließend das Modell. Mit Methoden wie Klassifikation, Regression, Prognosen und Gradient Boosting werden beim überwachten Lernen anhand von Mustern die Labels für weitere Daten vorhergesagt, die noch kein Label haben. Überwachtes Lernen kommt meist dann zum Einsatz, wenn sich aus historischen Daten wahrscheinliche künftige Ereignisse ableiten lassen. Beispielsweise kann auf diese Weise vorhergesagt werden, ob Kreditkartentransaktionen wahrscheinlich betrügerisch sind oder welche Versicherungskunden wahrscheinlich Versicherungsleistungen in Anspruch nehmen. Unüberwachtes Lernen (Unsupervised Learning) wird bei Daten verwendet, für die keine historischen Labels vorliegen. Dem System wird also keine „richtige Antwort“ gegeben. Der Algorithmus muss sich selbst einen Reim auf die vorhandenen Daten machen. Dazu muss er die Daten untersuchen und eine Struktur darin erkennen. Unüberwachtes Lernen funktioniert besonders gut bei Transaktionsdaten. So lassen sich beispielsweise Segmente von Kunden mit ähnlichen Attributen erkennen, die dann im Rahmen von Marketingkampagnen in vergleichbarer Art und Weise angesprochen werden können. Oder der Algorithmus ermittelt die Hauptattribute, die Kundensegmente voneinander unterscheiden. Gängige Anwendungen sind selbstorganisierende Karten, Nearest-Neighbor-Mapping, k-Means-Clustering und Singulärwertzerlegung. Solche Algorithmen werden auch eingesetzt, um Textthemen zu segmentieren, Empfehlungen auszugeben und Ausreißer in Daten zu erkennen. Teilüberwachtes Lernen (Semisupervised Learning) wird für die gleichen Zwecke eingesetzt wie überwachtes Lernen. Zum Training werden jedoch Daten mit und ohne Label genutzt – in der Regel ein kleiner Bestand an Daten mit Label und ein großer Bestand ohne, denn Daten ohne Label sind weniger kostenintensiv und mit
weniger Aufwand zu bekommen. Diese Art des Lernens kann in Verbindung mit Methoden wie Klassifikation, Regression und Prognosen erfolgen. Teilüberwachtes Lernen bietet sich an, wenn die Kosten für das Labeling sämtlicher Daten zu hoch wären. Zu den frühesten Beispielen für diese Technik gehört die Identifikation von Gesichtern in Webcam-Aufnahmen. Bestärkendes Lernen (Reinforcement Learning) kommt im Zusammenhang mit Robotik, Computerspielen und Navigation zum Einsatz. Beim bestärkenden Lernen erkennt der Algorithmus durch Versuch und Irrtum, welche Aktionen die höchste Belohnung erbringen. An dieser Art des Lernens sind drei Hauptkomponenten beteiligt: der Agent (der Lernende oder Entscheidungsträger), die Umgebung (alles, womit der Agent interagiert) und die Aktionen (das, was der Agent tun kann). Ziel des Agenten ist es, Aktionen zu wählen, die die erwartete Belohnung innerhalb eines bestimmten Zeitraums maximieren. Der Agent erreicht das Ziel viel schneller, wenn er eine geeignete Strategie anwendet. Ziel beim bestärkenden Lernen ist es also, die beste Strategie zu erlernen. Menschen können in der Regel ein bis zwei gute Modelle pro Woche erstellen, maschinelles Lernen kann tausende Modelle pro Woche erstellen. Thomas H. Davenport, Vordenker auf dem Gebiet der Analytik Mehr zu diesem Thema
Ist Data Mining Machine Learning?Beim Data Mining werden auch neuronale Netze eingesetzt, die den Funktionen des menschlichen Gehirns ähneln und über viele Datendurchläufe bestehende Strukturen oder Muster erlernen. Daher ist Data Mining eng verwandt mit maschinellem Lernen (auch Machine Learning genannt).
Was versteht man unter Machine Learning?Machine Learning (ML) ist ein Teilgebiet der künstlichen Intelligenz (KI). Algorithmen können Muster und Gesetzmäßigkeiten in Datensätzen erkennen und daraus Lösungen entwickeln. Einfach gesagt, wird Wissen aus Erfahrungen generiert.
Was macht das Data Mining?Data Mining bezeichnet die systematische Nutzung computergestützter, statistischer Methoden zur Identifizierung von Mustern, Zusammenhängen und Trends in umfangreichen Datenbeständen (Big Data). Die hierfür eingesetzten Algorithmen kombinieren Erkenntnisse aus der IT, der Mathematik und der Statistik.
Was braucht man für Data Mining?Statistik und Data Mining Methoden im Vergleich. |