Was ist der unterschied zwischen maschinellem lernen und data mining

Was ist Data Mining?

Data Mining ist die systematische Anwendung statistischer und durch Künstliche Intelligenz gestützte Methoden, um in vorhandenen Datenbeständen automatisch Muster, Trends, Querverbindungen oder Zusammenhänge zu finden. Data Mining wird dabei oft, aber fälschlicherweise, synonym für „Knowledge Discovery in Databases“ verwendet. KDD beinhaltet aber auch Vorverarbeitung und Auswertung und ist dem Data Mining daher übergeordnet.

Data Mining ist notwendig und motiviert durch Big Data: Riesige Datenmengen, die durch verschiedene Tools relativ leicht gesammelt werden können, die aber manuell kaum zu analysieren sind. Um Wissensverlust vorzubeugen, wird es branchen- und disziplinübergreifend eingesetzt. Gegenüber den klassischen statistischen Verfahren hat Data Mining den Vorteil, dass nicht nur manuell aufgestellte Hypothesen be- oder widerlegt werden, sondern neue Thesen generiert und so Entscheidungsprozesse angepasst und validiert werden können.

Data Mining und Machine Learning (Maschinelles lernen)

Oberflächlich betrachtet stellen Data Mining und Maschinelles Lernen ein gegensätzliches Paar bei der Arbeit mit großen Datenmengen dar. Beim Maschinellen Lernen werden vordergründig bekannte Muster in neuen Datensätzen wiedererkannt. Umgekehrt wird Data Mining genutzt, um neue Zusammenhänge zu erkennen und zu verarbeiten (ähnlich funktioniert das sogenannte unüberwachte Lernen beim maschinellen Lernen). Ganz voneinander lösen lassen sich deswegen die beiden Prozesse aufgrund der vielen Gemeinsamkeiten nicht. Mithilfe von Data Mining zusammengetragene Erkenntnisse, Regeln und Muster werden für das maschinelle Lernen gebraucht.

Abgrenzung zum Text Mining

Das Text Mining ist eine dem Data Mining ähnliche Verfahrensweise, allerdings wird es nicht auf Big Data sondern auf natürlich-sprachliche Quellen oder Dokumente angewendet. Mit Hilfe von statistischen und linguistischen Methoden gewinnt eine Text-Mining-Software Strukturen, Muster, Bedeutungszusammenhänge und Kerninformationen, die dem Nutzer helfen, den wesentlichen Inhalt des Textes zu erfassen, ohne ihn komplett lesen zu müssen. Diese Prozesse sind weitgehend automatisiert.

Im Anschluss wird auf die gewonnenen Daten aus den Texten oft ein Data Mining Verfahren angewendet, um die Daten und die zugrunde liegenden Texte in Beziehung zu setzen und hier Zusammenhänge und Verbindungen zu erkennen. Entlehnte Verfahren aus dem Information Retrieval (IR) ermöglichen es außerdem, Kerndaten und Informationen zu erfassen, die zur Beantwortung von Suchanfragen dienen. In Datenbanken mit einer großen Anzahl von Quellen werden so die relevanten Einzeldokumente identifiziert.

Quellen:

  • https://wirtschaftslexikon.gabler.de/definition/data-Mining-28709
  • http://www.datenbanken-verstehen.de/lexikon/text-mining/

  1. SAS Insights
  2. Analytics Insights

Was es ist und was man darüber wissen sollte

Maschinelles Lernen ist eine Datenanalysemethode, die die automatische Erstellung von Analysemodellen ermöglicht. Maschinelles Lernen ist ein Zweig der künstlichen Intelligenz und basiert auf dem Gedanken, dass Systeme aus Daten lernen, Muster erkennen und Entscheidungen treffen können – mit minimaler menschlicher Intervention.

Die Evolution des maschinellen Lernens

Aufgrund neuer Computertechnologien hat maschinelles Lernen heute nicht mehr viel Ähnlichkeit mit maschinellem Lernen in der Vergangenheit. Es entstand aus der Mustererkennung und der Theorie, dass Computer lernen können, bestimmte Aufgaben auszuführen, ohne dafür programmiert zu werden. Forscher, die sich für künstliche Intelligenz interessierten, stellten sich die Frage, ob Computer aus Daten lernen können. Wiederholungen sind ein wesentlicher Aspekt des maschinellen Lernens, denn dieses beruht darauf, dass Modelle sich selbstständig anpassen, wenn man sie mit immer neuen Daten füttert. Das heißt, sie lernen aus vorherigen Berechnungen und generieren auf dieser Grundlage zuverlässige, wiederholbare Entscheidungen und Ergebnisse. Es handelt sich zwar nicht um eine neue Wissenschaft, jedoch erlebt sie gerade einen neuen Aufschwung.

Zwar existieren viele mathematische Algorithmen für das maschinelle Lernen schon sehr lange. Aber die Möglichkeit, komplexe mathematische Berechnungen automatisch auf enorme Datenmengen anzuwenden – immer wieder und immer schneller –, ist neu. Hier ein paar Beispiele für die praktische Anwendung maschinellen Lernens, die ein großes Medienecho gefunden haben und daher inzwischen weithin bekannt sind:

  • das hochgejubelte, selbstfahrende Google-Auto? Basiert auf maschinellem Lernen.
  • Online-Empfehlungen wie bei Amazon oder Netflix? Eine praktische Anwendung für maschinelles Lernen im Alltag.
  • wissen, was die Kunden auf Twitter über jemanden sagen? Maschinelles Lernen in Verbindung mit der Erstellung von linguistischen Regeln.
  • Betrugserkennung? Heutzutage eins der eher offensichtlichen und wichtigen Anwendungsgebiete.

Maschinelles Lernen und künstliche Intelligenz:

Künstliche Intelligenz (KI) ist das große wissenschaftliche Forschungsgebiet der Simulation menschlicher Fähigkeiten und maschinelles Lernen ist ein Teilgebiet der KI mit dem Ziel, Maschinen so zu trainieren, dass sie selbstständig lernen können. Sehen Sie sich das Video an! Es erklärt die Zusammenhänge zwischen KI und maschinellem Lernen. Sie erfahren, wie diese beiden Technologien funktionieren – anhand von Beispielen und einigen unterhaltsamen Anmerkungen.

Gängige Methoden des maschinellen Lernens

Die beiden am weitesten verbreiteten Methoden beim maschinellen Lernen sind überwachtes Lernen und unüberwachtes Lernen – aber daneben gibt es noch eine Reihe weiterer Methoden. Hier ein Überblick über die gängigsten Methoden.

Überwachtes Lernen (Supervised Learning) – der Algorithmus trainiert anhand von gegebenen Paaren von Ein- und Ausgaben (Labels). Beispielsweise könnten die Datenpunkte eines Geräteteils mit „F“ (ausgefallen) oder „R“ (läuft) gekennzeichnet sein. Der Lernalgorithmus erhält eine Reihe von Eingaben samt zugehörigen (korrekten) Ausgaben. Er vergleicht seine tatsächliche Ausgabe mit den korrekten Ausgaben, erkennt seine Fehler und lernt auf diese Weise. Dementsprechend modifiziert er anschließend das Modell. Mit Methoden wie Klassifikation, Regression, Prognosen und Gradient Boosting werden beim überwachten Lernen anhand von Mustern die Labels für weitere Daten vorhergesagt, die noch kein Label haben. Überwachtes Lernen kommt meist dann zum Einsatz, wenn sich aus historischen Daten wahrscheinliche künftige Ereignisse ableiten lassen. Beispielsweise kann auf diese Weise vorhergesagt werden, ob Kreditkartentransaktionen wahrscheinlich betrügerisch sind oder welche Versicherungskunden wahrscheinlich Versicherungsleistungen in Anspruch nehmen.

Unüberwachtes Lernen (Unsupervised Learning) wird bei Daten verwendet, für die keine historischen Labels vorliegen. Dem System wird also keine „richtige Antwort“ gegeben. Der Algorithmus muss sich selbst einen Reim auf die vorhandenen Daten machen. Dazu muss er die Daten untersuchen und eine Struktur darin erkennen. Unüberwachtes Lernen funktioniert besonders gut bei Transaktionsdaten. So lassen sich beispielsweise Segmente von Kunden mit ähnlichen Attributen erkennen, die dann im Rahmen von Marketingkampagnen in vergleichbarer Art und Weise angesprochen werden können. Oder der Algorithmus ermittelt die Hauptattribute, die Kundensegmente voneinander unterscheiden. Gängige Anwendungen sind selbstorganisierende Karten, Nearest-Neighbor-Mapping, k-Means-Clustering und Singulärwertzerlegung. Solche Algorithmen werden auch eingesetzt, um Textthemen zu segmentieren, Empfehlungen auszugeben und Ausreißer in Daten zu erkennen.

Teilüberwachtes Lernen (Semisupervised Learning) wird für die gleichen Zwecke eingesetzt wie überwachtes Lernen. Zum Training werden jedoch Daten mit und ohne Label genutzt – in der Regel ein kleiner Bestand an Daten mit Label und ein großer Bestand ohne, denn Daten ohne Label sind weniger kostenintensiv und mit weniger Aufwand zu bekommen. Diese Art des Lernens kann in Verbindung mit Methoden wie Klassifikation, Regression und Prognosen erfolgen. Teilüberwachtes Lernen bietet sich an, wenn die Kosten für das Labeling sämtlicher Daten zu hoch wären. Zu den frühesten Beispielen für diese Technik gehört die Identifikation von Gesichtern in Webcam-Aufnahmen.

Bestärkendes Lernen (Reinforcement Learning) kommt im Zusammenhang mit Robotik, Computerspielen und Navigation zum Einsatz. Beim bestärkenden Lernen erkennt der Algorithmus durch Versuch und Irrtum, welche Aktionen die höchste Belohnung erbringen. An dieser Art des Lernens sind drei Hauptkomponenten beteiligt: der Agent (der Lernende oder Entscheidungsträger), die Umgebung (alles, womit der Agent interagiert) und die Aktionen (das, was der Agent tun kann). Ziel des Agenten ist es, Aktionen zu wählen, die die erwartete Belohnung innerhalb eines bestimmten Zeitraums maximieren. Der Agent erreicht das Ziel viel schneller, wenn er eine geeignete Strategie anwendet. Ziel beim bestärkenden Lernen ist es also, die beste Strategie zu erlernen.

Menschen können in der Regel ein bis zwei gute Modelle pro Woche erstellen, maschinelles Lernen kann tausende Modelle pro Woche erstellen.

Thomas H. Davenport, Vordenker auf dem Gebiet der Analytik
Auszug aus dem Wall Street Journal

Mehr zu diesem Thema

  • Analytics tackles the scourge of human traffickingVictims of human trafficking are all around us. From forced labor to sex work, modern-day slavery thrives in the shadows. Learn why organizations are turning to AI and big data analytics to unveil these crimes and change future trajectories.
  • Viking transforms its analytics strategy using SAS® Viya® on AzureViking is going all-in on cloud-based analytics to stay competitive and meet customer needs. The retailer's digital transformation are designed to optimize processes and boost customer loyalty and revenue across channels.
  • Public health infrastructure desperately needs modernizationPublic health agencies must flex to longitudinal health crises and acute emergencies – from natural disasters like hurricanes to events like a pandemic. To be prepared, public health infrastructure must be modernized to support connectivity, real-time data exchanges, analytics and visualization.
  • SAS CIO: Why leaders must cultivate curiosity in 2021With the change we’re all facing this year, CIOs should be counting on curiosity to play a crucial role in how we’re going to meet the challenges that lie ahead. From the moment COVID-19 hit, our IT organization has relied on curiosity – that strong desire to explore, learn, know - to fuel the urgent changes required. And it’s curiosity that will enable us to meet the needs of the future of work post-pandemic.

Ist Data Mining Machine Learning?

Beim Data Mining werden auch neuronale Netze eingesetzt, die den Funktionen des menschlichen Gehirns ähneln und über viele Datendurchläufe bestehende Strukturen oder Muster erlernen. Daher ist Data Mining eng verwandt mit maschinellem Lernen (auch Machine Learning genannt).

Was versteht man unter Machine Learning?

Machine Learning (ML) ist ein Teilgebiet der künstlichen Intelligenz (KI). Algorithmen können Muster und Gesetzmäßigkeiten in Datensätzen erkennen und daraus Lösungen entwickeln. Einfach gesagt, wird Wissen aus Erfahrungen generiert.

Was macht das Data Mining?

Data Mining bezeichnet die systematische Nutzung computergestützter, statistischer Methoden zur Identifizierung von Mustern, Zusammenhängen und Trends in umfangreichen Datenbeständen (Big Data). Die hierfür eingesetzten Algorithmen kombinieren Erkenntnisse aus der IT, der Mathematik und der Statistik.

Was braucht man für Data Mining?

Statistik und Data Mining Methoden im Vergleich.