Forest-basierte Klassifizierung und Regression

Diagramm des Workflows "Forest-basierte Klassifizierung und Regression"


Erstellt Modelle und generiert Vorhersagen mithilfe einer Adaption des "Random Forest"-Algorithmus, einer Methode für überwachtes maschinelles Lernen von Leo Breiman. Vorhersagen können sowohl für Kategorievariablen (Klassifizierung) als auch für kontinuierliche Variablen (Regression) getroffen werden. Erklärende Variablen sind Felder in der Attributtabelle der Trainings-Features. Das Werkzeug kann ausgeführt werden, um ein Modell für die Bewertung der Performance zu erstellen oder um ein Modell zu erstellen und Ergebnisse für andere Datasets vorherzusagen.

Analysetyp


Gibt den Operationsmodus des Werkzeugs an. Das Werkzeug kann ausgeführt werden, um ein Modell nur für die Bewertung der Performance zu trainieren oder um ein Modell zu trainieren und Features vorherzusagen. Die folgenden Vorhersagetypen sind verfügbar:

  • Modell für die Bewertung der Modell-Performance trainieren: Ein Modell wird trainiert und an die Eingabedaten angepasst. Prüfen Sie die Genauigkeit des Modells mit dieser Option, bevor Sie Vorhersagen für ein neues Dataset generieren. Die Ausgaben dieser Option sind ein Feature-Service Ihrer angepassten Trainingsdaten, Modelldiagnosen und optional eine Tabelle der Variablenbedeutung.
  • Modell trainieren und Werte vorhersagen: Vorhersagen oder Klassifikationen werden für Features generiert. Sowohl für die Trainings-Features als auch für die vorherzusagenden Features müssen erklärende Variablen angegeben werden. Die Ausgaben dieser Option sind ein Feature-Service Ihrer vorhergesagten Werte, Modelldiagnosen und optional eine Tabelle der Variablenbedeutung.

Ein Modell trainieren, um die Modell-Performance zu bewerten


Verwenden Sie diesen Modus, wenn Sie ein Modell anpassen und die Anpassung untersuchen möchten.

Mit dieser Auswahl wird das Modell mithilfe eines Eingabe-Layers trainiert. Prüfen Sie die Genauigkeit des Modells mit dieser Option, bevor Sie Vorhersagen für ein neues Dataset generieren. Mit dieser Option werden Modelldiagnosen im Meldungsfenster ausgegeben und wird das Modell auf Ihre Trainingsdaten angewendet.

Ein Modell trainieren und Werte vorhersagen


Verwenden Sie diesen Modus, wenn Sie ein Modell anpassen möchten, und wenden Sie das Modell auf das Dataset an, um Vorhersagen zu generieren.

Es werden Vorhersagen oder Klassifizierungen für Features generiert. Die Ausgaben dieser Option sind ein Feature-Service, Modelldiagnosen und optional eine Tabelle der Variablenbedeutung.

Training-Layer auswählen


Der Feature-Layer, der die vorherzusagende Variable und die Felder enthält, mit denen die Vorhersage generiert wird.

Sie können nicht nur einen Layer aus der Karte auswählen, sondern auch unten in der Dropdown-Liste die Option Analyse-Layer auswählen auswählen, um zu Ihren Inhalten für ein Big-Data-Dateifreigabe-Dataset bzw. -Feature-Layer zu navigieren.

Wählen Sie einen Layer aus, für den Werte vorhergesagt werden sollen


Ein Feature-Layer, der Positionen darstellt, an denen Vorhersagen getroffen werden. Dieser Feature-Layer muss auch erklärende Variablen enthalten, die als Felder bereitgestellt wurden und den von den Trainings-Features verwendeten Feldern entsprechen.

Sie können nicht nur einen Layer aus der Karte auswählen, sondern auch unten in der Dropdown-Liste die Option Analyse-Layer auswählen auswählen, um zu Ihren Inhalten für ein Big-Data-Dateifreigabe-Dataset bzw. -Feature-Layer zu navigieren.

Vorherzusagendes Feld auswählen


Das Feld aus den Trainings-Features mit den Werten, die zum Trainieren des Modells verwendet werden sollen. Dieses Feld enthält bekannte (Trainings-)Werte der Variablen, mit denen eine Vorhersage an unbekannten Positionen getroffen wird. Aktivieren Sie das Kontrollkästchen Kategorisch, wenn Werte kategorisch sind (z. B. Ahorn, Pinie, Eiche).

Eine oder mehrere erklärende Variablen auswählen


Ein oder mehrere Felder, die erklärende Variablen (Felder) darstellen und die Vorhersage des Wertes oder der Kategorie von "Vorherzusagende Variable" unterstützen. Verwenden Sie das Kontrollkästchen "Kategorie" für alle Variablen, die Klassen oder Kategorien darstellen (z. B. Landbedeckung oder Anwesenheit oder Abwesenheit). Geben Sie für alle Werte der Variable, die Klassen oder Kategorien wie Landbedeckung oder Anwesenheit oder Abwesenheit darstellen, "true" an und "false", wenn es sich um eine kontinuierliche Variable handelt.

Anzahl der Bäume


Die Anzahl der Bäume, die im Modell erstellt werden sollen. Eine höhere Anzahl von Strukturen führt zu einer genaueren Modellvorhersage, für die Berechnung des Modells wird jedoch mehr Zeit benötigt. Die Standardzahl von Strukturen beträgt 100.

Minimale Blattgröße


Die minimale Anzahl der Beobachtungen, die mindestens erforderlich sind, um ein Element (also den Endpunkt einer Struktur, der keine weiteren Verzweigungen hat) beizubehalten. Das Standardminimum ist 5 für die Regression und 1 für die Klassifizierung. Bei sehr großen Daten führt eine Erhöhung dieser Zahlen zu einer Erhöhung der Laufzeit des Werkzeugs.

Maximale Strukturtiefe


Die maximale Anzahl von Teilungen entlang einer Struktur. Je größer die maximale Tiefe, desto mehr Teilungen werden erstellt. Dadurch steigt das Risiko einer Überanpassung des Modells. Die Standardeinstellung ist datenabhängig und abhängig von der Anzahl der erstellten Strukturen und der berücksichtigten Variablen.

Pro Baum verfügbare Daten (%)


Gibt den Prozentsatz der für jede Entscheidungsstruktur verwendeten Features im Trainings-Layer an. Die Standardeinstellung liegt bei 100 Prozent der Daten. Samples für jede Struktur werden nach dem Zufallsprinzip aus zwei Dritteln der angegebenen Daten entnommen.

Alle Entscheidungsbäume im Wald werden mithilfe einer zufälligen Stichprobe oder einer zufälligen Teilmenge (etwa zwei Drittel) der verfügbaren Trainingsdaten erstellt. Durch die Verwendung eines niedrigeren Prozentsatzes der Eingabedaten für die einzelnen Entscheidungsbäume wird die Geschwindigkeit des Werkzeugs bei sehr großen Datasets beschleunigt.

Anzahl der nach dem Zufallsprinzip erfassten Variablen


Gibt die Anzahl der erklärenden Variablen für die Erstellung der einzelnen Entscheidungsstrukturen an.

Alle Entscheidungsstrukturen in der Gesamtstruktur werden mithilfe einer zufälligen Teilmenge der erklärenden Variablen erstellt. Durch eine Erhöhung der Anzahl der in den einzelnen Entscheidungsbäumen verwendeten Variablen steigt die Wahrscheinlichkeit einer Überanpassung des Modells, vor allem dann, wenn dominante Variablen vorhanden sind. Eine gängige Praxis besteht darin, die Quadratwurzel aus der Gesamtzahl der erklärenden Variablen zu ziehen, wenn "Vorherzusagende Variable" numerisch ist, oder die Gesamtzahl der erklärenden Variablen durch 3 zu teilen, wenn "Vorherzusagende Variable" kategorisch ist.

Wählen Sie aus, wie erklärende Felder zugeordnet werden


Auf welche Weise die entsprechenden Variablen im Training-Layer mit den Variablen im Vorhersage-Layer übereinstimmen. Es werden ausschließlich die beim Training verwendeten Variablen in die Tabelle einbezogen.

Anzahl der ausgeführten Validierungen


Gibt den Prozentsatz (zwischen 0 und 50 Prozent) der Features im Trainings-Layer an, die als Test-Dataset für die Validierung reserviert sind. Das Modell wird ohne diese zufällige Teilmenge der Daten trainiert, und die beobachteten Werte für diese Features werden mit dem vorhergesagten Wert verglichen. Der Standardwert ist 10 Prozent.

Name des Ergebnis-Layers


Dies ist der Name des Layers, der in Eigene Inhalte erstellt und der Karte hinzugefügt wird. Der Standardname basiert auf dem Werkzeugnamen und dem Namen des Eingabe-Layers. Wenn der Layer bereits vorhanden ist, werden Sie aufgefordert, einen anderen Namen einzugeben.

Die zurückgegebenen Ergebnisse sind vom jeweiligen Analysetyp abhängig. Wenn Sie ein Training zum Bewerten der Modellanpassung durchführen, enthalten die Ergebnisse einen an das Modell angepassten Layer mit Trainingsdaten und Ergebnisinformationen mit einer Bewertung der Modellanpassung. Wenn Sie Trainings und Vorhersagen durchführen, enthalten die Ergebnisse einen an das Modell angepassten Layer mit den Trainingsdaten, einen Layer mit vorhergesagten Ergebnissen und Ergebnisinformationen mit einer Bewertung der Modellanpassung.

Über das Dropdown-Feld Ergebnis speichern in können Sie den Namen eines Ordners in Eigene Inhalte angeben, in dem das Ergebnis gespeichert werden soll.