Wie wähle ich ML-Algorithmen für Regressionsprobleme?

Überall herrscht diese Begeisterung – maschinelles Lernen!


Was ist dieses „maschinelle Lernen (ML)“?

Betrachten wir ein praktisches Beispiel. Wenn Sie sich vorstellen können, wie wahrscheinlich es ist, dass eine Aufgabe zum ersten Mal erledigt wird – sagen wir, es geht darum, das Autofahren zu lernen. Das heißt, wie würden Sie sich selbst Feedback geben? Mit Unsicherheit?

Auf der anderen Seite, wie möchten Sie sich nach ein paar Jahren Übung für dieselbe Aufgabe tätscheln? Wahrscheinlich hätten Sie Ihre Denkweise vom Unsicherheitsparameter oder einem sichereren Parameter geändert. Wie sind Sie zu diesem Fachwissen gekommen??

Höchstwahrscheinlich haben Sie Erfahrung mit der Optimierung einiger Parameter gesammelt und Ihre Leistung verbessert. Recht? Das ist maschinelles Lernen.

Ein Computerprogramm soll aus der Erfahrung (E) bei einigen Aufgaben (T) lernen, um das Ergebnis mit der besten Leistung zu erzielen (P)..

Ebenso lernen Maschinen durch einige komplexe mathematische Konzepte, und alle Daten für sie haben die Form 0 und 1. Daher codieren wir die Logik für unser Programm nicht. Stattdessen möchten wir, dass eine Maschine die Logik aus den Daten selbst herausfindet.

Wenn Sie außerdem den Zusammenhang zwischen Erfahrung, Berufsniveau, seltenen Fähigkeiten und Gehalt ermitteln möchten, müssen Sie Algorithmen für maschinelles Lernen unterrichten.

Komplexer Datensatz mit mehr FunktionenKomplexer Datensatz mit mehr Funktionen

Gemäß dieser Fallstudie müssen Sie die Funktionen optimieren, um die Beschriftungen zu erhalten. Sie codieren den Algorithmus jedoch nicht und sollten sich auf die Daten konzentrieren.

Daher ist das Konzept Daten + Algorithmus = Einblicke. Zweitens sind bereits Algorithmen für uns entwickelt worden, und wir müssen wissen, welchen Algorithmus wir zur Lösung unserer Probleme verwenden sollen. Werfen wir einen Blick auf das Regressionsproblem und den besten Weg, einen Algorithmus auszuwählen.

Die Übersicht über maschinelles Lernen

Gemäß Andreybu, Ein deutscher Wissenschaftler mit mehr als 5 Jahren Erfahrung im maschinellen Lernen: „Wenn Sie verstehen, ob es sich bei der maschinellen Lernaufgabe um ein Regressions- oder Klassifizierungsproblem handelt, ist die Auswahl des richtigen Algorithmus ein Kinderspiel.“

die verschiedenen Gruppierungen des maschinellen LernensDie verschiedenen Gruppierungen des maschinellen Lernens

Der Hauptunterschied zwischen ihnen besteht darin, dass die Ausgabevariable in der Regression numerisch (oder kontinuierlich) ist, während die für die Klassifizierung kategorisch (oder diskret) ist..

Regression beim maschinellen Lernen

Zunächst versuchen die Regressionsalgorithmen, die Abbildungsfunktion (f) von den Eingangsvariablen (x) auf numerische oder kontinuierliche Ausgangsvariablen (y) zu schätzen. Die Ausgabevariable kann nun ein reeller Wert sein, der eine Ganzzahl oder ein Gleitkommawert sein kann. Daher sind die Regressionsvorhersageprobleme normalerweise Größen oder Größen.

Wenn Sie beispielsweise einen Datensatz über Häuser erhalten und aufgefordert werden, deren Preise vorherzusagen, ist dies eine Regressionsaufgabe, da der Preis eine kontinuierliche Ausgabe ist.

Beispiele für die gängigen Regressionsalgorithmen umfassen die lineare Regression, Support Vector Regression (SVR), und Regressionsbäume.

Klassifizierung im maschinellen Lernen

Im Gegensatz dazu ist y im Fall von Klassifizierungsalgorithmen eine Kategorie, die die Abbildungsfunktion vorhersagt. Um für einzelne oder mehrere Eingabevariablen zu arbeiten, versucht ein Klassifizierungsmodell, den Wert einer einzelnen oder mehrerer Schlussfolgerungen vorherzusagen.

Wenn Sie beispielsweise einen Datensatz über Häuser erhalten, kann ein Klassifizierungsalgorithmus versuchen, vorherzusagen, ob die Preise für die Häuser „mehr oder weniger als den empfohlenen Einzelhandelspreis verkaufen“. Hier die beiden diskreten Kategorien: über oder unter dem genannten Preis.

Beispiele für die gängigen Klassifizierungsalgorithmen sind logistische Regression, Naive Bayes, Entscheidungsbäume und K Nearest Neighbors.

Auswahl der richtigen Algorithmen

Richtige ML-BewertungDas akribische Data Digging für die richtige ML-Auswertung

Verstehen Sie Ihre Daten

  • Schauen Sie sich die zusammenfassende Statistik an
  • Verwenden Sie den Parameter “Perzentil”, um die Bereiche der Daten zu identifizieren
  • Mittelwerte und Mediane beschreiben die zentrale Tendenz
  • Korrelationen können auf starke Beziehungen hinweisen

Visualisieren Sie die Daten

  • Box-Plots können Ausnahmen anzeigen.
  • Dichtediagramme und Histogramme zeigen die Verbreitung von Daten
  • Streudiagramme können Mengenverhältnisse beschreiben

Bereinigen Sie die Daten

Die fehlenden Teile herausfindenHerausfinden der fehlenden Teile – Priorität auf der To-Do-Liste, um den richtigen ML-Algorithmus zu finden

  • Beschäftige dich mit einem fehlenden Wert. Das Ergebnis wird in diesem Fall zu sensiblen Ergebnissen geführt (fehlende Daten für bestimmte Variablen können zu ungenauen Vorhersagen führen).
  • Obwohl Baummodelle weniger empfindlich auf Ausreißer reagieren, reagieren regressive Modelle oder andere Modelle, die Gleichungen verwenden, empfindlicher auf Ausnahmen
  • Grundsätzlich können Ausreißer das Ergebnis einer schlechten Datenerfassung sein oder legitime Extremwerte

Kuratieren Sie die Daten

Darüber hinaus muss beim Konvertieren der Rohdaten in polierte Daten, die den Modellen entsprechen, Folgendes beachtet werden:

  • Erleichtern Sie die Interpretation der Daten.
  • Erfassen Sie komplexere Daten.
  • Konzentrieren Sie sich auf die Reduzierung von Datenredundanz und Dimensionalität.
  • Normalisieren Sie die Variablenwerte.

Kategorisieren Sie das Problem anhand der Eingabevariablen

  • Sie haben Daten gekennzeichnet. Es ist ein überwachtes Lernproblem.
  • Wenn Sie unbeschriftete Daten haben und eine Struktur finden möchten, handelt es sich um ein unbeaufsichtigtes Lernproblem.
  • Wenn Sie eine Zielfunktion durch Interaktion mit einer Umgebung optimieren möchten, handelt es sich um ein Problem des verstärkenden Lernens.

Kategorisieren Sie das Problem anhand der Ausgabevariablen

  • Die Ausgabe Ihres Modells ist eine Zahl. Es ist ein Regressionsproblem.
  • Wenn die Ausgabe Ihres Modells eine Klasse ist, liegt ein Klassifizierungsproblem vor.
  • Die Ausgabe Ihres Modells besteht aus einer Reihe von Eingabegruppen. Es handelt sich um ein Clustering-Problem.

Der Einschränkungsfaktor

  • Beachten Sie die Speicherkapazität, da diese für verschiedene Modelle unterschiedlich ist.
  • Muss die Vorhersage schnell sein? Zum Beispiel in Echtzeitszenarien wie der Klassifizierung von Verkehrszeichen so schnell wie möglich sein, um Unfälle zu vermeiden.

Schließlich finden Sie den Algorithmus

Die logische MethodeDie logische Methode: Befolgen Sie die Anweisungen

Nachdem Sie ein klares Bild Ihrer Daten haben, können Sie geeignete Tools implementieren, um den richtigen Algorithmus auszuwählen.

In der Zwischenzeit finden Sie zur besseren Entscheidung eine Checkliste der Faktoren für Sie:

  • Überprüfen Sie, ob das Modell Ihrem Geschäftsziel entspricht
  • Wie viel Vorverarbeitung das Modell erfordert
  • Überprüfen Sie die Genauigkeit des Modells
  • Wie erklärbar das Modell ist
  • Wie schnell das Modell ist: Wie lange dauert es, ein Modell zu erstellen, und wie lange dauert es, bis das Modell Vorhersagen trifft
  • Die Skalierbarkeit des Modells

Um dies zu ergänzen, muss man bei der Auswahl auf die Komplexität des Algorithmus achten.

Im Allgemeinen können Sie die Komplexität des Modells anhand der folgenden Parameter messen:

  • Wenn zwei oder mehr als zehn Funktionen erforderlich sind, um das Ziel zu lernen und vorherzusagen
  • Es basiert auf komplexerem Feature-Engineering (z. B. unter Verwendung von Polynomtermen, Wechselwirkungen oder Hauptkomponenten).
  • Wenn das Szenario mehr Rechenaufwand hat (z. B. ein einzelner Entscheidungsbaum gegenüber einer zufälligen Gesamtstruktur von 100 Bäumen)

Außerdem kann der gleiche Algorithmus manuell komplexer gemacht werden. Dies hängt ausschließlich von der Anzahl der Parameter und dem betrachteten Szenario ab. Sie können beispielsweise ein Regressionsmodell mit mehr Features oder Polynom- und Interaktionstermen entwerfen. Oder Sie können einen Entscheidungsbaum mit geringerer Tiefe entwerfen.

Die gängigen Algorithmen für maschinelles Lernen

Lineare Regression

Dies sind wahrscheinlich die einfachsten.
Einige der Beispiele, bei denen lineare Regression verwendet wird, sind:

  • Erstens, wenn es Zeit ist, von einem Ort zum anderen zu gehen
  • Vorhersage des Umsatzes eines bestimmten Produkts im nächsten Monat
  • Einfluss des Blutalkoholgehalts auf die Koordination
  • Prognostizieren Sie monatliche Geschenkkartenverkäufe und verbessern Sie die jährlichen Umsatzprognosen

Logistische Regression

Anscheinend bietet dieser Algorithmus viele Vorteile: Integration weiterer Funktionen mit einer netten Interpretationsfunktion, einfache Aktualisierungsfunktion zum Anhängen neuer Daten.

Anders ausgedrückt, Sie könnten dies verwenden für:

  • Vorhersage der Kundenabwanderung.
  • Der besondere Fall der Kreditbewertung oder Betrugserkennung.
  • Messung der Wirksamkeit von Marketingkampagnen.

Entscheidungsbäume

Anscheinend werden einzelne Bäume selten verwendet, aber in der Zusammensetzung bilden sie zusammen mit vielen anderen effiziente Algorithmen wie Random Forest oder Gradient Tree Boosting. Einer der Nachteile ist jedoch, dass sie das Online-Lernen nicht unterstützen. Sie müssen Ihren Baum also neu erstellen, wenn neue Beispiele auftauchen.

Bäume eignen sich hervorragend für:

  • Investitionsentscheidungen
  • Bankkreditausfälle
  • Sales Lead Qualifikationen

Naive Bayes

Vor allem ist Naive Bayes die richtige Wahl, wenn CPU- und Speicherressourcen ein begrenzender Faktor sind. Der Hauptnachteil besteht jedoch darin, dass es keine Interaktionen zwischen Funktionen lernen kann.

Es kann verwendet werden für:

  • Gesichtserkennung
  • Eine E-Mail als Spam markieren oder nicht.
  • Stimmungsanalyse und Textklassifizierung.

Fazit

Daher ist es in einem Echtzeitszenario im Allgemeinen etwas schwierig, den richtigen Algorithmus für maschinelles Lernen für diesen Zweck zu finden. Sie können diese Checkliste jedoch verwenden, um einige Algorithmen nach Belieben in die engere Wahl zu ziehen.

Darüber hinaus erfordert die Entscheidung für die richtige Lösung eines realen Problems ein fachkundiges Geschäftsverständnis sowie den richtigen Algorithmus. Bringen Sie Ihren Daten die richtigen Algorithmen bei, führen Sie sie entweder parallel oder seriell aus und bewerten Sie am Ende die Leistung der Algorithmen, um die besten auszuwählen..

Wenn Sie sich auf Deep Learning spezialisieren möchten, können Sie dies ausprobieren Dieser Kurs durch tiefes Lernen.

STICHWORTE:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map