Skogsbaserad klassificering och regression

Skogsbaserad klassificering och diagram över regressionsarbetsflöde


Skapar modeller och genererar förutsägelser med hjälp av en anpassning av Leo Breimans algoritm för slumpmässig skog, som är en övervakad metod för maskininlärning. Förutsägelser kan göras både för kategoriska variabler (klassificering) och kontinuerliga variabler (regression). Förklarande variabler är fält i attributtabellen för träningsgeoobjekt. Verktyget kan köras i syfte att generera en modell för att utvärdera prestanda, eller generera en modell och förutsäga resultat för ett annat dataset.

Analystyp


Anger verktygets driftläge. Verktyget kan köras för att träna en modell i att enbart utvärdera prestanda, eller träna modellen och förutsäga geoobjekt. Det finns följande förutsägelsetyper:

  • Träna en modell i att utvärdera prestanda – En modell tränas och anpassas till indata. Använd det här alternativet för att utvärdera korrektheten hos din modell innan du genererar förutsägelser på ett nytt dataset. Utdata för det här alternativet kommer att vara en geoobjekttjänst för dina anpassade träningsdata, modelldiagnostik och en valfri tabell av varierande betydelse.
  • Träna en modell och förutsäg värden – Förutsägelser eller klassificeringar genereras för geoobjekt. Förklarande variabler måste anges både för träningsgeoobjekten och geoobjekten som ska förutsägas. Utdata för det här alternativet kommer att vara en geoobjekttjänst för dina förutsagda värden, modelldiagnostik och en valfri tabell av varierande betydelse.

Träna en modell att utvärdera modellprestanda


Använd det här läget om du vill prova ut en modell, och undersök hur den passar.

Med det här valet tränas modellen med ett indatalager. Använd det här alternativet för att utvärdera korrektheten hos din modell innan du genererar förutsägelser på ett nytt dataset. Det här alternativet gör att modelldiagnostik visas i meddelandefönstret och tillämpar modellen på dina träningsdata.

Träna en modell och förutsäg värden


Använd det här läget om du vill prova ut en modell, och tillämpa modellen på datasetet för att generera förutsägelser.

Förutsägelser eller klassificeringar kommer att genereras för geoobjekt. Utdata för det här alternativet kommer att vara en geoobjekttjänst, modelldiagnostik och en valfri tabell av varierande betydelse.

Välj träningslager


Geoobjektlagret som innehåller variabeln som ska förutsägas och fälten som kommer att användas för att generera förutsägelsen.

Förutom att välja ett lager från kartan kan du välja Välj analyslager längst ned i listrutan för att bläddra till ditt innehåll efter ett big data-fildelningsdataset eller geoobjektlager.

Välj ett lager att förutsäga värden för


Ett geoobjektlager som representerar platser där förutsägelser kommer att göras. Det här geoobjektlagret måste också innehålla de förklarande variabler som anges som fält som motsvarar dem som används för träningsgeoobjekten.

Förutom att välja ett lager från kartan kan du välja Välj analyslager längst ned i listrutan för att bläddra till ditt innehåll efter ett big data-fildelningsdataset eller geoobjektlager.

Välj vilket fält som ska förutsägas


Fältet från träningsgeoobjekten som innehåller värdena som ska användas för att träna modellen. Det här fältet innehåller kända (tränings-) värden för variabeln som kommer att användas för att göra förutsägelser på okända platser. Om värdena är kategoriska (till exempel lönn, tall, ek) väljer du den kategoriska kryssrutan.

Välj en eller flera förklarande variabler


Ett eller flera fält som representerar de förklarande variablerna (fält) som hjälper till att förutsäga värdet eller kategorin hos variabeln som ska förutsägas. Använd den kategoriska kryssrutan för variabler som representerar klasser eller kategorier (till exempel marktäckning eller närvaro eller frånvaro). Ange variablerna som sanna om de representerar klasser eller kategorier som marktäckning eller närvaro eller frånvaro och som falska om variablerna är kontinuerliga.

Antal träd


Antalet träd som ska skapas i modellen. Fler träd ger vanligtvis en mer korrekt modellförutsägelse, men modellen tar längre tid att beräkna. Standardantal för träd är 100.

Minsta storlek för blad


Minsta antalet observationer som krävs för att behålla ett blad (som är avslutande nod på ett träd utan ytterligare delningar). Standardminimiantalet för regression är 5 och standardantalet för klassificering är 1. För mycket stora data minskar verktygets körningstid om dessa antal ökas.

Maximalt träddjup


Maximalt antal delningar som görs genom ett träd. Om ett stort maxdjup används skapas fler delningar, vilket kan öka sannolikheten för att modellen överanpassas. Standard drivs av data och beror på antalet träd som skapas och antalet variabler som inkluderas.

Data tillgängliga per träd (%)


Anger procentandelen geoobjekt i träningslagren som används för varje beslutsträd. Standard är 100 procent av data. Exempel från varje träd tas slumpmässigt från två tredjedelar av angivna data.

Varje beslutsträd i skogen skapas genom att ett slumpmässigt exempel eller en delmängd (cirka två tredjedelar) av tillgängliga träningsdata används. Om en lägre procentandel av indata används för varje beslutsträd ökar verktygets hastighet för mycket stora dataset.

Antal slumpmässigt samplade variabler


Anger antalet förklarande variabler som används för att skapa varje beslutsträd.

Vart och ett av beslutsträden i skogen skapas genom att en slumpmässig delmängd av de förklarande variablerna används. Om antalet variabler som används i varje beslutsträd ökar, ökar sannolikheten att modellen överanpassas, särskilt om det finns en eller ett par dominanta variabler. Det är vanligt att använda kvadratroten av det totala antalet för förklarande variabler om din variabel som ska förutsägas är numerisk eller delar det totala antalet förklarande variabler med 3 om variabeln som ska förutsägas är kategorisk.

Välj hur förklarande fält matchas


Så här matchar motsvarande variabler i träningslagret variablerna i förutsägelselagret. Endast de variabler som används vid träning kommer att ingå i tabellen.

Antal körningar för validering


Anger procentandelen (mellan 0 och 50 procent) för geoobjekt i träningslagret som ska reserveras som testdataset för validering. Modellen kommer att tränas utan denna slumpmässiga delmängd data och de observerade värdena för dessa geoobjekt kommer att jämföras med det förutsagda värdet. Standardandel är 10 procent.

Resultatlagrets namn


Det här är namnet på lagret som skapas i Mitt innehåll och läggs till i kartan. Standardnamnet baseras på verktygets namn och indatalagrets namn. Om lagret redan finns uppmanas du att ange ett annat namn.

Resultaten som erhålls beror på typen av analys. Om du tränar för att utvärdera modellpassning kommer resultaten att innehålla ett lager träningsdata som passar för modellen och resultatinformation som utvärderar modellpassningen. Om du tränar och förutsäger kommer resultaten att innehålla ett lager av träningsdata som passar för modellen, ett lager förutsagda resultat och resultatinformation som utvärderar modellpassningen.

Om du använder listrutan Spara resultat i kan du ange namnet på en mapp i Mitt innehåll där resultatet ska sparas.