Maschinelles lernen

Maschinelles Lernen (ML) ist ein Gebiet künstlicher Intelligenz, das statistische Techniken verwendet, um Computersystemen die Möglichkeit zu geben, aus Daten “zu lernen” (z. B. die Leistung bei einer bestimmten Aufgabe progressiv zu verbessern), ohne explizit programmiert zu werden.

Der Name Machine Learning wurde 1959 von Arthur Samuel geprägt. Maschinelles Lernen erforscht das Studium und den Aufbau von Algorithmen, die aus Daten lernen und Vorhersagen treffen können. Diese Algorithmen werden nach streng statischen Programmanweisungen überwunden, indem sie datengesteuerte Vorhersagen oder Entscheidungen treffen, indem sie ein Modell aus Stichprobeneingaben erstellen. Maschinelles Lernen wird bei einer Reihe von Rechenaufgaben eingesetzt, bei denen das Entwerfen und Programmieren expliziter Algorithmen mit guter Leistung schwierig oder nicht durchführbar ist. Beispielanwendungen umfassen E-Mail-Filterung, Erkennung von Netzwerk-Eindringlingen und Computer Vision.

Maschinelles Lernen steht in engem Zusammenhang mit (und überschneidet sich häufig) mit Computerstatistiken, die sich auch auf die Vorhersage durch den Einsatz von Computern konzentrieren. Es ist eng mit der mathematischen Optimierung verbunden, die dem Feld Methoden, Theorie und Anwendungsdomänen liefert. Maschinelles Lernen wird manchmal mit Data Mining kombiniert, wobei das letztere Teilfeld mehr auf explorative Datenanalyse fokussiert ist und als unüberwachtes Lernen bezeichnet wird.

Im Bereich der Datenanalyse ist maschinelles Lernen eine Methode, mit der komplexe Modelle und Algorithmen entwickelt werden, die sich für die Vorhersage eignen. Im kommerziellen Gebrauch wird dies als Predictive Analytics bezeichnet. Mithilfe dieser Analysemodelle können Forscher, Datenwissenschaftler, Ingenieure und Analysten “zuverlässige, wiederholbare Entscheidungen und Ergebnisse erzielen” und “verborgene Einsichten” aufdecken, indem sie aus historischen Zusammenhängen und Trends in den Daten lernen.

Überblick
Tom M. Mitchell stellte eine viel zitiertere, formellere Definition der im Bereich des maschinellen Lernens untersuchten Algorithmen bereit: “Ein Computerprogramm soll aus der Erfahrung E in Bezug auf einige Aufgabenklassen T und das Leistungsmaß P seine Leistung bei Aufgaben lernen in T, gemessen an P, verbessert sich mit der Erfahrung E. ” Diese Definition der Aufgaben, an denen das maschinelle Lernen beteiligt ist, bietet eine grundsätzlich operative Definition, anstatt das Feld kognitiv zu definieren. Dies folgt Alan Turings Vorschlag in seinem Artikel “Computing Machinery and Intelligence”, in dem die Frage “Können Maschinen denken?” wird ersetzt durch die Frage “Können Maschinen das tun, was wir (als denkende Entitäten) können?”. In Turings Vorschlag werden die verschiedenen Eigenschaften, die eine Denkmaschine besitzen könnte, und die verschiedenen Implikationen bei der Konstruktion einer Maschine aufgezeigt.

Maschinelles Lernen

Maschinelle Lernaufgaben werden normalerweise in mehrere große Kategorien eingeteilt:

Überwachtes Lernen: Dem Computer werden Beispieleingaben und deren gewünschte Ausgaben präsentiert, die von einem “Lehrer” ausgegeben werden, und das Ziel besteht darin, eine allgemeine Regel zu erlernen, die die Eingaben den Ausgaben zuordnet. In besonderen Fällen kann das Eingangssignal nur teilweise verfügbar sein oder auf spezielle Rückmeldungen beschränkt sein.
Halbüberwachtes Lernen: Der Computer erhält nur ein unvollständiges Trainingssignal: ein Trainingssatz, bei dem einige (oft viele) der Zielausgänge fehlen.
Aktives Lernen: Der Computer kann Schulungsetiketten nur für eine begrenzte Anzahl von Instanzen (basierend auf einem Budget) erhalten und muss außerdem die Auswahl der Objekte optimieren, für die Labels erworben werden sollen. Bei einer interaktiven Verwendung können diese dem Benutzer zur Kennzeichnung vorgelegt werden.
Unüberwachtes Lernen: Der Lernalgorithmus wird nicht mit einem Label versehen, sodass er die Struktur in seiner Eingabe selbst bestimmen kann. Unüberwachtes Lernen kann selbst ein Ziel sein (verborgene Muster in Daten entdecken) oder Mittel zum Zweck (Lernen mit Merkmalen).
Verstärktes Lernen: Daten (in Form von Belohnungen und Strafen) werden nur als Rückmeldung zu den Aktionen des Programms in einer dynamischen Umgebung angegeben, z. B. beim Fahren eines Fahrzeugs oder beim Spielen eines Spiels gegen einen Gegner.

Machine Learning-Anwendungen
Eine weitere Kategorisierung von Machine Learning-Aufgaben ergibt sich, wenn man die gewünschte Ausgabe eines maschinell erlernten Systems betrachtet:
Bei der Klassifizierung werden Eingaben in zwei oder mehr Klassen unterteilt, und der Lernende muss ein Modell erstellen, das ungesehenen Eingaben einer oder mehreren (Mehrfach-Klassifizierung) dieser Klassen zuordnet. Dies wird typischerweise auf beaufsichtigte Weise angegangen. Die Spam-Filterung ist ein Klassifizierungsbeispiel, bei dem die Eingaben E-Mail-Nachrichten (oder andere Nachrichten) sind und die Klassen “Spam” und “Nicht-Spam” sind.
Bei der Regression, ebenfalls ein beaufsichtigtes Problem, sind die Ausgaben eher kontinuierlich als diskret.
Beim Clustering ist eine Reihe von Eingaben in Gruppen zu unterteilen. Anders als bei der Klassifizierung sind die Gruppen nicht im Voraus bekannt, was diese Aufgabe normalerweise zu einer unbeaufsichtigten Aufgabe macht.
Die Dichteschätzung ermittelt die Verteilung der Eingaben in einem bestimmten Bereich.
Die Reduzierung der Dimensionalität vereinfacht die Eingabe, indem sie in einem weniger dimensionalen Raum abgebildet werden. Die Themenmodellierung ist ein verwandtes Problem, bei dem ein Programm eine Liste mit humansprachlichen Dokumenten erhält und herauszufinden versucht, welche Dokumente ähnliche Themen abdecken.

Unter anderen Kategorien von maschinellem Lernproblemen lernt das Lernen des Lernens seine eigene induktive Neigung basierend auf früheren Erfahrungen. Entwicklungslernen, das für das Roboterlernen erarbeitet wurde, generiert eigene Sequenzen (auch als Lehrplan bezeichnet) von Lernsituationen, um durch autonome Selbsterforschung und soziale Interaktion mit menschlichen Lehrern und unter Verwendung von Führungsmechanismen wie aktivem Lernen, Reifung, Motorik Repertoires neuer Fähigkeiten erwerben zu können Synergien und Nachahmung.

Geschichte und Beziehungen zu anderen Bereichen
Arthur Samuel, ein US-amerikanischer Pionier auf dem Gebiet des Computerspielens und der künstlichen Intelligenz, prägte den Begriff “Machine Learning” 1959 bei IBM. Als wissenschaftliches Unterfangen entwickelte sich maschinelles Lernen aus der Suche nach künstlicher Intelligenz. Einige Forscher waren schon in den Anfängen der KI als wissenschaftliche Disziplin daran interessiert, dass Maschinen aus Daten lernen. Sie versuchten, mit verschiedenen symbolischen Methoden an das Problem heranzugehen, was dann als “neuronale Netzwerke” bezeichnet wurde. Dies waren hauptsächlich Perzeptrone und andere Modelle, die sich später als Reinventionen der verallgemeinerten linearen Statistikmodelle herausstellten. Probabilistisches Denken wurde insbesondere in der automatisierten medizinischen Diagnose angewandt.

Eine zunehmende Betonung des logischen, wissensbasierten Ansatzes führte jedoch zu einer Kluft zwischen KI und maschinellem Lernen. Probabilistische Systeme wurden von theoretischen und praktischen Problemen der Datenerfassung und -darstellung geplagt. Im Jahr 1980 dominierten Expertensysteme die KI, und die Statistik geriet außer Gefecht. Die Arbeit an symbolischem / wissensbasiertem Lernen wurde innerhalb der KI fortgesetzt und führte zu induktiver Logikprogrammierung. Die eher statistische Forschungslinie befand sich jedoch außerhalb der eigentlichen KI, bei der Mustererkennung und beim Abrufen von Informationen. Die Forschung über neuronale Netze wurde etwa zur gleichen Zeit von KI und Informatik aufgegeben. Auch diese Linie wurde außerhalb des AI / CS-Bereichs als “Verbindungismus” von Forschern aus anderen Disziplinen wie Hopfield, Rumelhart und Hinton fortgesetzt. Ihr Haupterfolg kam Mitte der achtziger Jahre mit der Neuerfindung der Backpropagation.

Maschinelles Lernen, das als eigenständiger Bereich neu organisiert wurde, begann in den 1990er Jahren zu florieren. Das Feld veränderte sein Ziel vom Erreichen künstlicher Intelligenz hin zu lösbaren Problemen praktischer Natur. Es verlagerte den Fokus von den symbolischen Ansätzen, die es von der KI geerbt hatte, hin zu Methoden und Modellen, die der Statistik und der Wahrscheinlichkeitstheorie entlehnt wurden. Sie profitierte auch von der zunehmenden Verfügbarkeit digitalisierter Informationen und der Möglichkeit, diese über das Internet zu verbreiten.

Maschinelles Lernen und Data Mining verwenden häufig die gleichen Methoden und überschneiden sich erheblich. Während sich das Maschinelle Lernen auf der Grundlage von bekannten Eigenschaften aus den Trainingsdaten auf die Vorhersage konzentriert, konzentriert sich Data Mining auf die Entdeckung (früher) unbekannter Eigenschaften in den Daten (dies ist der Fall) der Analyseschritt der Wissensfindung in Datenbanken). Data Mining verwendet viele maschinelle Lernmethoden, jedoch mit unterschiedlichen Zielen. Auf der anderen Seite verwendet maschinelles Lernen Data-Mining-Verfahren als “unüberwachtes Lernen” oder als Vorverarbeitungsschritt, um die Genauigkeit der Lernenden zu verbessern. Die Verwirrung zwischen diesen beiden Forschungsgemeinschaften (die oft über separate Konferenzen und separate Zeitschriften verfügen, wobei ECML PKDD eine große Ausnahme darstellt) beruht auf den Grundannahmen, mit denen sie arbeiten: Beim maschinellen Lernen wird die Leistung in der Regel im Hinblick auf die Fähigkeit dazu bewertet Bekanntes Wissen reproduzieren, während bei Knowledge Discovery und Data Mining (KDD) die Schlüsselaufgabe darin besteht, zuvor unbekanntes Wissen zu entdecken. Gemessen am Kenntnisstand wird eine nicht informierte (unbeaufsichtigte) Methode leicht durch andere überwachte Methoden übertroffen, während in einer typischen KDD-Aufgabe überwachte Methoden aufgrund der Nichtverfügbarkeit von Trainingsdaten nicht verwendet werden können.

Maschinelles Lernen ist auch eng mit der Optimierung verbunden: Viele Lernprobleme werden als Minimierung einiger Verlustfunktionen in einem Trainingssatz von Beispielen formuliert.Verlustfunktionen drücken die Diskrepanz zwischen den Vorhersagen des trainierten Modells und den tatsächlichen Probleminstanzen aus (z. B. möchte man bei der Klassifizierung Instanzen ein Label zuweisen, und Modelle werden trainiert, um die zuvor zugewiesenen Labels eines Satzes von korrekt zu prognostizieren Beispiele). Der Unterschied zwischen den beiden Feldern ergibt sich aus dem Ziel der Verallgemeinerung: Während Optimierungsalgorithmen zwar den Verlust eines Trainingssatzes minimieren können, geht es beim maschinellen Lernen darum, den Verlust an unsichtbaren Proben zu minimieren.

Bezug zu Statistiken
Maschinelles Lernen und Statistik sind eng miteinander verwandt. Laut Michael I. Jordan haben die Ideen des maschinellen Lernens, von methodologischen Prinzipien bis hin zu theoretischen Instrumenten, eine lange Vorgeschichte in der Statistik. Er schlug auch den Begriff Data Science als Platzhalter vor, um das Gesamtfeld zu bezeichnen.

Leo Breiman unterschied zwei Paradigmen für statistische Modelle: Datenmodell und algorithmisches Modell, wobei “algorithmisches Modell” mehr oder weniger die maschinellen Lernalgorithmen wie “Random Forest” bedeutet.

Einige Statistiker setzen Methoden des maschinellen Lernens ein, was zu einem kombinierten Bereich führt, den sie als statistisches Lernen bezeichnen.

Theorie
Ein zentrales Ziel eines Lernenden ist es, seine Erfahrungen zu verallgemeinern. Verallgemeinerung in diesem Zusammenhang ist die Fähigkeit einer lernenden Maschine, neue, ungesehene Beispiele / Aufgaben genau auszuführen, nachdem sie einen Lerndatensatz erlebt haben. Die Trainingsbeispiele stammen aus einer im Allgemeinen unbekannten Wahrscheinlichkeitsverteilung (die als repräsentativ für den Vorkommensraum angesehen wird), und der Lernende muss ein allgemeines Modell für diesen Raum erstellen, das es ihm ermöglicht, in neuen Fällen ausreichend genaue Vorhersagen zu treffen.

Die computergestützte Analyse von Algorithmen für maschinelles Lernen und deren Leistung ist ein als theoretische Computerlehre bezeichneter Zweig der theoretischen Informatik. Da die Trainingssätze begrenzt sind und die Zukunft unsicher ist, gibt die Lerntheorie in der Regel keine Garantie für die Leistungsfähigkeit von Algorithmen. Vielmehr sind Wahrscheinlichkeitsgrenzen für die Performance recht häufig. Die Bias-Varance-Zerlegung ist eine Möglichkeit, den Generalisierungsfehler zu quantifizieren.

Für die beste Leistung im Kontext der Verallgemeinerung sollte die Komplexität der Hypothese der Komplexität der den Daten zugrunde liegenden Funktion entsprechen. Wenn die Hypothese weniger komplex ist als die Funktion, hat das Modell die Daten unterschritten. Wenn die Komplexität des Modells als Antwort erhöht wird, nimmt der Trainingsfehler ab. Wenn die Hypothese jedoch zu komplex ist, unterliegt das Modell einer Überanpassung, und die Generalisierung wird schlechter.

Zusätzlich zu Leistungsgrenzen untersuchen Theoretiker des rechnerischen Lernens die zeitliche Komplexität und Durchführbarkeit des Lernens. In der Theorie des rechnerischen Lernens wird eine Berechnung als machbar angesehen, wenn sie in Polynomialzeit durchgeführt werden kann. Es gibt zwei Arten von Zeitkomplexitätsergebnissen. Positive Ergebnisse zeigen, dass eine bestimmte Klasse von Funktionen in Polynomialzeit erlernt werden kann. Negative Ergebnisse zeigen, dass bestimmte Klassen in Polynomialzeiten nicht erlernt werden können.

Ansätze

Entscheidungsbaum lernen
Beim Decision Tree-Lernen wird ein Entscheidungsbaum als Vorhersagemodell verwendet, bei dem Beobachtungen zu einem Element Schlussfolgerungen über den Zielwert des Elements erhalten.

Vereinigungsregel lernen
Das Lernen mit Assoziationsregeln ist eine Methode zum Erkennen interessanter Beziehungen zwischen Variablen in großen Datenbanken.

Künstliche neurale Netzwerke
Ein künstlicher neuronaler Netzwerk-Algorithmus (ANN), üblicherweise als “neuronales Netzwerk” (NN) bezeichnet, ist ein Lernalgorithmus, der vage von biologischen neuronalen Netzwerken inspiriert ist. Berechnungen werden in Form einer miteinander verbundenen Gruppe künstlicher Neuronen strukturiert, wobei Informationen unter Verwendung einer verbindungsorientierten Berechnungsmethode verarbeitet werden. Moderne neuronale Netzwerke sind nichtlineare statistische Datenmodellierungswerkzeuge. Sie werden normalerweise verwendet, um komplexe Beziehungen zwischen Eingaben und Ausgaben zu modellieren, Muster in Daten zu finden oder die statistische Struktur in einer unbekannten gemeinsamen Wahrscheinlichkeitsverteilung zwischen beobachteten Variablen zu erfassen.

Tiefes Lernen
Sinkende Hardwarepreise und die Entwicklung von GPUs für den persönlichen Gebrauch in den letzten Jahren haben zur Entwicklung des Konzepts des tiefen Lernens beigetragen, das aus mehreren verborgenen Schichten in einem künstlichen neuronalen Netzwerk besteht. Dieser Ansatz versucht zu modellieren, wie das menschliche Gehirn Licht und Ton in Sicht und Gehör umwandelt.Einige erfolgreiche Anwendungen des Tiefenlernens sind Computer Vision und Spracherkennung.

Induktive Logikprogrammierung
Inductive Logic Programming (ILP) ist ein Ansatz zum Regellernen, bei dem Logikprogrammierung als einheitliche Darstellung für Eingabebeispiele, Hintergrundwissen und Hypothesen verwendet wird. Bei einer Kodierung des bekannten Hintergrundwissens und einer Reihe von Beispielen, die als logische Datenbank von Fakten dargestellt werden, wird ein ILP-System ein hypothetisches Logikprogramm ableiten, das alle positiven und keine negativen Beispiele enthält. Die induktive Programmierung ist ein verwandtes Feld, das jegliche Art von Programmiersprachen für die Darstellung von Hypothesen (und nicht nur für die Logikprogrammierung) berücksichtigt, wie etwa funktionale Programme.

Support-Vektor-Maschinen
Support Vector Machines (SVMs) sind eine Reihe verwandter beaufsichtigter Lernmethoden, die zur Klassifizierung und Regression verwendet werden. In Anbetracht einer Reihe von Trainingsbeispielen, von denen jedes als zu einer von zwei Kategorien gehörend markiert ist, erstellt ein SVM-Trainingsalgorithmus ein Modell, das vorhersagt, ob ein neues Beispiel in die eine oder die andere Kategorie fällt.

Clustering
Clusteranalyse ist die Zuordnung eines Satzes von Beobachtungen in Teilmengen (so genannte Cluster), so dass die Beobachtungen innerhalb desselben Clusters nach bestimmten vordefinierten Kriterien oder Kriterien ähnlich sind, während Beobachtungen, die aus verschiedenen Clustern gezogen wurden, nicht ähnlich sind. Unterschiedliche Clustering-Techniken treffen unterschiedliche Annahmen bezüglich der Struktur der Daten, die häufig durch eine Ähnlichkeitsmetrik definiert und beispielsweise durch interne Kompaktheit (Ähnlichkeit zwischen Mitgliedern eines Clusters) und Trennung zwischen verschiedenen Clustern ausgewertet werden. Andere Methoden basieren auf der geschätzten Dichte und der Graph-Konnektivität. Clustering ist eine Methode des unbeaufsichtigten Lernens und eine gängige Technik für die statistische Datenanalyse.

Bayesische Netzwerke
Ein Bayesianisches Netzwerk, ein Glaubensnetzwerk oder ein gerichtetes azyklisches grafisches Modell ist ein Wahrscheinlichkeitsmodell, das einen Satz von Zufallsvariablen und ihre bedingten Unabhängigkeit über einen gerichteten azyklischen Graphen (DAG) darstellt. Ein Bayes-Netzwerk könnte beispielsweise die Wahrscheinlichkeitsbeziehungen zwischen Krankheiten und Symptomen darstellen. Bei gegebenen Symptomen kann das Netzwerk verwendet werden, um die Wahrscheinlichkeiten des Vorhandenseins verschiedener Erkrankungen zu berechnen. Es gibt effiziente Algorithmen, die Inferenz und Lernen durchführen.

Repräsentationslernen
Mehrere Lernalgorithmen, meistens unbeaufsichtigte Lernalgorithmen, zielen darauf ab, bessere Darstellungen der während des Trainings bereitgestellten Eingaben zu entdecken. Klassische Beispiele umfassen Hauptkomponentenanalyse und Clusteranalyse. Repräsentationslernalgorithmen versuchen häufig, die Informationen in ihrer Eingabe zu erhalten, transformieren sie jedoch auf eine Weise, die es nützlich macht, oft als Vorverarbeitungsschritt vor der Durchführung von Klassifizierungen oder Vorhersagen, und ermöglicht die Rekonstruktion der Eingaben, die aus der unbekannten Datenerzeugungsverteilung stammen nicht unbedingt treu für Konfigurationen sein, die unter dieser Verteilung nicht plausibel sind.

Vielfältige Lernalgorithmen versuchen dies unter der Einschränkung, dass die erlernte Repräsentation niedrigdimensional ist. Sparse-Codierungsalgorithmen versuchen dies unter der Bedingung, dass die erlernte Darstellung spärlich ist (viele Nullen hat). Multilineare Unterraumlernalgorithmen zielen darauf ab, niedrigdimensionale Darstellungen direkt aus Tensordarstellungen für mehrdimensionale Daten zu lernen, ohne sie in (hochdimensionale) Vektoren umzuwandeln. Deep-Learning-Algorithmen erkennen mehrere Repräsentationsstufen oder eine Hierarchie von Features, wobei abstraktere Features auf höherer Ebene in Bezug auf das Generieren (oder Generieren) von Features auf niedrigerer Ebene definiert werden. Es wurde argumentiert, eine intelligente Maschine lerne eine Repräsentation, die die zugrunde liegenden Variationsfaktoren, die die beobachteten Daten erklären, voneinander abgrenzt.

Ähnlichkeit und metrisches Lernen
In diesem Problem werden der Lernmaschine Paare von Beispielen gegeben, die als ähnlich betrachtet werden, und Paare von weniger ähnlichen Objekten. Es muss dann eine Ähnlichkeitsfunktion (oder eine Distanzmetrikfunktion) gelernt werden, die vorhersagen kann, ob neue Objekte ähnlich sind. Es wird manchmal in Empfehlungssystemen verwendet.

Spärliches Wörterbuchlernen
Bei diesem Verfahren wird ein Datum als lineare Kombination von Basisfunktionen dargestellt, und es wird angenommen, dass die Koeffizienten spärlich sind. Sei x ein d-dimensionales Datum, D sei eine Matrix, in der jede Spalte von D eine Basisfunktion darstellt. r ist der Koeffizient, um x mit D darzustellen. Mathematisch bedeutet sparsames Wörterbuchlernen Mittel  wo r spärlich ist. Im Allgemeinen wird angenommen, dass n größer als d ist, um die Freiheit für eine spärliche Darstellung zu ermöglichen.

Das Lernen eines Wörterbuchs mit spärlichen Darstellungen ist stark NP-schwer und auch schwer zu lösen. Eine beliebte heuristische Methode zum sparsamen Wörterbuchlernen ist K-SVD.

Sparsames Wörterbuchlernen wurde in verschiedenen Zusammenhängen angewendet. Bei der Klassifizierung besteht das Problem darin, zu bestimmen, zu welchen Klassen ein zuvor nicht gesehenes Datum gehört. Angenommen, für jede Klasse wurde bereits ein Wörterbuch erstellt. Dann wird der Klasse ein neues Datum zugeordnet, so dass es am besten durch das entsprechende Wörterbuch sparsam dargestellt wird. Das sparsame Wörterbuchlernen wurde auch beim Image-Noise-Verfahren angewendet. Die Schlüsselidee ist, dass ein sauberer Image-Patch durch ein Image-Wörterbuch spärlich dargestellt werden kann, das Rauschen jedoch nicht.

Genetische Algorythmen
Ein genetischer Algorithmus (GA) ist eine Suchheuristik, die den Prozess der natürlichen Selektion nachahmt und Methoden wie Mutation und Crossover verwendet, um einen neuen Genotyp zu generieren, um gute Lösungen für ein gegebenes Problem zu finden. Beim maschinellen Lernen fanden genetische Algorithmen in den 1980er und 1990er Jahren einige Anwendungen. Umgekehrt wurden maschinelle Lerntechniken verwendet, um die Leistung von genetischen und evolutionären Algorithmen zu verbessern.

Regelbasiertes maschinelles Lernen
Regelbasiertes maschinelles Lernen ist ein allgemeiner Begriff für jede maschinelle Lernmethode, bei der “Regeln” zum Speichern, Manipulieren oder Anwenden von Wissen identifiziert, gelernt oder weiterentwickelt werden. Das bestimmende Merkmal eines auf Regeln basierenden maschinellen Lerners ist die Identifizierung und Verwendung eines Satzes von relationalen Regeln, die gemeinsam das vom System erfasste Wissen darstellen. Dies steht im Gegensatz zu anderen Maschinenlernern, die häufig ein einzelnes Modell identifizieren, das universell auf jede Instanz angewendet werden kann, um eine Vorhersage zu treffen. Regelbasierte maschinelle Lernansätze umfassen Lernklassifikationssysteme, das Lernen von Assoziationsregeln und künstliche Immunsysteme.

Klassifikationssysteme lernen
Lernklassifizierungssysteme (Learning Classifier Systems, LCS) sind eine Familie von regelbasierten Algorithmen für maschinelles Lernen, die eine Entdeckungskomponente (z. B. typischerweise einen genetischen Algorithmus) mit einer Lernkomponente (Durchführen von beaufsichtigtem Lernen, Verstärkungslernen oder unbeaufsichtigtem Lernen) kombinieren. Sie versuchen, eine Reihe von kontextabhängigen Regeln zu identifizieren, in denen das Wissen gemeinsam gespeichert und angewendet wird, um Vorhersagen zu treffen.

Anwendungen
Anwendungen für maschinelles Lernen umfassen:

Landwirtschaft
Automatisierte Theoremprüfung
Adaptive Websites
Affective Computing
Bioinformatik
Brain-Machine-Schnittstellen
Cheminformatik
DNA-Sequenzen klassifizieren
Computational Anatomie
Computernetzwerke
Telekommunikation
Computer Vision einschließlich Objekterkennung
Kreditkartenbetrug aufdecken
Allgemeines Spielen
Informationsrückgewinnung
Internet-Betrugserkennung
Computerlinguistik
Marketing
Steuerung des maschinellen Lernens
Maschinenwahrnehmung
Automatisierte medizinische Diagnose
Computational Economics
Versicherung
Verarbeitung natürlicher Sprache
Natürliches Sprachverständnis
Optimierung und Metaheuristik
Onlinewerbung
Empfehlungssysteme
Roboterbewegung
Suchmaschinen
Sentiment-Analyse (oder Opinion-Mining)
Sequenz-Mining
Softwareentwicklung
Sprach- und Handschrifterkennung
Finanzmarktanalyse
Strukturelle Gesundheitsüberwachung
Syntaktische Mustererkennung
Zeitreihenprognose
Analyse des Nutzerverhaltens
Maschinenübersetzung

Im Jahr 2006 veranstaltete das Online-Filmunternehmen Netflix den ersten “Netflix-Preis” – Wettbewerb, um ein Programm zu finden, mit dem die Präferenzen der Benutzer besser vorhergesagt werden können und die Genauigkeit des vorhandenen Cinematch-Algorithmus für die Filmentwicklung um mindestens 10% verbessert werden kann. Ein gemeinsames Team aus Forschern von AT & amp; T Labs-Research in Zusammenarbeit mit den Teams Big Chaos und Pragmatic Theory baute ein Ensemble-Modell, um den Hauptpreis 2009 für 1 Million US-Dollar zu gewinnen. Kurz nachdem der Preis vergeben wurde, erkannte Netflix, dass die Bewertungen der Zuschauer nicht die besten Indikatoren für das Sehverhalten waren (“alles ist eine Empfehlung”), und sie änderten ihre Empfehlungsmaschine entsprechend.

Im Jahr 2010 schrieb das Wall Street Journal über die Firma Rebellion Research und deren Einsatz von Machine Learning zur Vorhersage der Finanzkrise.

Im Jahr 2012 prognostizierte der Mitbegründer von Sun Microsystems, Vinod Khosla, dass 80% der Arbeitsplätze von Ärzten in den nächsten zwei Jahrzehnten durch automatisiertes maschinelles Lernen von medizinischer Diagnosesoftware verloren gehen würden.

Im Jahr 2014 wurde berichtet, dass in der Kunstgeschichte ein Algorithmus für maschinelles Lernen angewendet wurde, um Kunstwerke zu studieren, und dass zuvor unerkannte Einflüsse zwischen Künstlern sichtbar geworden sind.

Einschränkungen
Obwohl maschinelles Lernen in einigen Bereichen transformativ war, ist effektives maschinelles Lernen schwierig, da das Finden von Mustern schwierig ist und oft nicht genügend Trainingsdaten verfügbar sind. Infolgedessen liefern viele maschinelle Lernprogramme oft nicht den erwarteten Wert. Die Gründe dafür sind zahlreich: Mangel an (geeigneten) Daten, mangelnder Zugriff auf die Daten, Datenvoreingenommenheit, Datenschutzprobleme, schlecht gewählte Aufgaben und Algorithmen, falsche Werkzeuge und Personen, mangelnde Ressourcen und Bewertungsprobleme.

Im Jahr 2018 konnte ein selbstfahrendes Auto von Uber keinen Fußgänger entdecken, der bei dem Unfall ums Leben kam. Versuche, maschinelles Lernen im Gesundheitswesen mit dem IBM Watson-System zu verwenden, waren auch nach Jahren und Milliardeninvestitionen nicht erfolgreich.

Vorspannen
Insbesondere Ansätze des maschinellen Lernens können unterschiedliche Datenverzerrungen aufweisen. Ein maschinelles Lernsystem, das nur für Ihre aktuellen Kunden geschult wurde, kann möglicherweise nicht die Anforderungen neuer Kundengruppen vorhersagen, die nicht in den Schulungsdaten enthalten sind. Beim Lernen mit vom Menschen gemachten Daten wird maschinelles Lernen wahrscheinlich die gleichen verfassungsmäßigen und unbewussten Vorurteile aufgreifen, die bereits in der Gesellschaft vorhanden sind. Es wurde gezeigt, dass Sprachmodelle, die aus Daten gelernt wurden, menschenähnliche Vorurteile enthalten. Es wurde festgestellt, dass maschinelle Lernsysteme, die zur Bewertung des Risikos von Straftaten verwendet werden, gegen Schwarze vorurteilslos sind. Im Jahr 2015 wurden Google-Fotos häufig mit schwarzen Fotos als Gorillas gekennzeichnet. 2018 war dies immer noch nicht gut gelöst, aber Google verwendete angeblich immer noch die Problemumgehung, um alle Gorillas aus den Trainingsdaten zu entfernen, und konnte somit keine echten Gorillas erkennen alles. Ähnliche Probleme bei der Erkennung nicht-weißer Personen wurden in vielen anderen Systemen gefunden. Im Jahr 2016 hat Microsoft einen Chatbot getestet, der von Twitter gelernt hat. Er hat schnell rassistische und sexistische Sprache gefunden. Aufgrund solcher Herausforderungen kann es länger dauern, bis der effektive Einsatz des maschinellen Lernens in anderen Bereichen angewendet wird.

Modellbewertungen
Klassifizierungsmodelle für das maschinelle Lernen können durch Genauigkeitsschätzungsverfahren wie die Holdout-Methode validiert werden, die die Daten in einem Trainings- und Test-Set (üblicherweise 2/3 des Trainings-Sets und 1/3 des Test-Sets) aufteilt und die Leistung des Trainingsmodells bewertet das Test-Set Im Vergleich teilt das N-fache Kreuzvalidierungsverfahren die Daten in k-Untergruppen zufällig auf, wobei die k-1-Instanzen der Daten zum Trainieren des Modells verwendet werden, während die k-te Instanz zum Testen der Vorhersagefähigkeit des Trainingsmodells verwendet wird. Zusätzlich zu den Holdout- und Cross-Validation-Methoden kann Bootstrap, mit dem n Instanzen aus dem Dataset abgetastet werden, zur Beurteilung der Modellgenauigkeit verwendet werden.

Zusätzlich zur Gesamtgenauigkeit berichten Ermittler häufig über Empfindlichkeit und Spezifität, dh True Positive Rate (TPR) bzw. True Negative Rate (TNR). In ähnlicher Weise geben Untersucher manchmal die False Positive Rate (FPR) sowie die False Negative Rate (FNR) an. Diese Verhältnisse sind jedoch Verhältnisse, die ihre Zähler und Nenner nicht offenlegen. Das Total Operating Characteristic (TOC) ist eine effektive Methode, um die Diagnosefähigkeit eines Modells darzustellen. TOC zeigt die Zähler und Nenner der zuvor genannten Raten. Daher liefert TOC mehr Informationen als die üblicherweise verwendeten Receiver Operating Characteristic (ROC) und ROCs zugehörige Area Under the Curve (AUC).

Ethik
Maschinelles Lernen wirft viele ethische Fragen auf. Systeme, die an Datensätzen trainiert werden, die mit Vorurteilen gesammelt wurden, können diese Vorurteile bei der Verwendung (algorithmische Vorurteile) aufweisen, wodurch kulturelle Vorurteile digitalisiert werden. Die Verwendung von Job-Einstellungsdaten von einem Unternehmen mit rassistischen Einstellungsrichtlinien kann beispielsweise dazu führen, dass ein Machine-Learning-System die Vorurteile dupliziert, indem Bewerber nach Ähnlichkeit mit früheren erfolgreichen Bewerbern bewertet werden. Die verantwortungsbewusste Erhebung von Daten und die Dokumentation der von einem System verwendeten algorithmischen Regeln ist daher ein kritischer Teil des maschinellen Lernens.

Da Sprache Vorurteile enthält, werden Maschinen, die auf Sprachkorpora trainiert werden, notwendigerweise auch Vorurteile lernen.

Andere Formen ethischer Herausforderungen, die nicht auf persönliche Vorurteile bezogen sind, werden eher im Gesundheitswesen gesehen. Unter den Angehörigen der Gesundheitsberufe gibt es Bedenken, dass diese Systeme nicht im Interesse der Öffentlichkeit, sondern als ein Einkommen erzeugende Maschinen konzipiert werden könnten. Dies gilt insbesondere für die Vereinigten Staaten, in denen ein ständiges ethisches Dilemma besteht, die Gesundheitsfürsorge zu verbessern, aber auch die Gewinne zu steigern. Die Algorithmen könnten beispielsweise so gestaltet werden, dass Patienten unnötige Tests oder Medikamente erhalten, an denen die proprietären Eigentümer des Algorithmus beteiligt sind. Es gibt ein enormes Potenzial für das maschinelle Lernen im Gesundheitswesen, das Fachleuten ein hervorragendes Instrument zur Diagnose, Medikation und sogar zur Planung bietet Erholungspfade für Patienten, aber dies wird nicht geschehen, bis die zuvor genannten persönlichen Vorsätze und diese “Gier” Vorsätze angegangen werden.

Software
Zu den Software-Suites, die verschiedene Algorithmen für maschinelles Lernen enthalten, gehören die folgenden:

Kostenlose und Open-Source-Software
CNTK
Deeplearning4j
ELKI
H2O
Mahout
Hammer
mlpack
MXNet
OpenNN
Orange
scikit-learn
Shogun
Spark-MLlib
TensorFlow
Fackel / PyTorch
Weka / MOA
Yooreeka

Proprietäre Software mit kostenlosen und Open-Source-Editionen
KNIME
RapidMiner

Proprietäre Software
Amazon Machine Learning
Angoss KnowledgeSTUDIO
Ayasdi
IBM Data Science Experience
Google Prediction API
IBM SPSS Modeler
KXEN Modeler
LIONsolver
Mathematica
MATLAB
Python
Microsoft Azure Machine Learning
Neuronaler Designer
NeuroSolutions
Oracle Data Mining
Oracle AI Platform Cloud Service
RCASE
SAS Enterprise Miner
SequenceL
Splunk
STATISTICA Data Miner