Forest-baseret klassifikation og regression

Workflow-diagram for Forest-baseret klassifikation og regression


Opretter modeller og genererer prognoser ved hjælp af en tilpasning af Leo Breiman's random forest-algoritme, som er en overvåget maskinlæringsmetode. Forudsigelser kan udføres både for kategoriske variabler (klassifikation) og kontinuerlige variabler (regression). Forklarende variabler er felter i attributtabellen for træningsobjekterne. Værktøjet kan køres for at generere en model til vurdering af ydeevne eller for at generere en model og forudsige resultater til andre datasæt.

Analysetype


Angiver værktøjets funktionsmåde. Værktøjet kan køres for at træne en model til kun at vurdere ydeevne eller for at træne en model og forudsige objekter. Der findes følgende typer forudsigelser:

  • Træne en model til vurdering af model-ydeevne – En model bliver trænet og tilpasset inputdata. Brug denne indstilling til at vurdere nøjagtigheden af ​​din model, før du genererer forudsigelser på et nyt datasæt. Output fra denne indstilling bliver en featuretjeneste af de tilpassede træningsdata, modeldiagnostik samt en valgfri tabel over variablernes betydning.
  • Træn en model og forudsig værdier – Forudsigelser eller klassifikationer genereres for objekter. Forklarende variabler skal være til rådighed for både træningsobjekterne og de objekter, der skal forudsiges. Output fra denne indstilling bliver en featuretjeneste af de forudsagte værdier, modeldiagnostik samt en valgfri tabel over variablernes betydning.

Træn en model for at vurdere model-ydelse


Brug denne tilstand, hvis du vil tilpasse en model og undersøge tilpasningen.

Med denne indstilling bliver modellen trænet ved hjælp af et inputlag. Brug denne indstilling til at vurdere nøjagtigheden af ​​din model, før du genererer forudsigelser på et nyt datasæt. Denne indstilling viser modeldiagnostik i meddelelsesvinduet og anvender modellen på dine træningsdata.

Træn en model, og forudsig værdier


Brug denne tilstand, hvis du vil tilpasse en model og anvende modellen på datasættet for at generere forudsigelser.

Der genereres forudsigelser eller klassifikationer for objekter. Output ved denne indstilling er en featuretjeneste, modeldiagnostik samt en valgfri tabel over variablernes betydning.

Vælg træningslag


Vektorlaget, der indeholder den variabel, som skal forudsiges, og de felter, der skal bruges til at generere forudsigelsen.

Udover at du kan vælge et lag i dit kort, kan du vælge Vælg analyselag nederst på rullelisten for at gå til dit indhold til et big data-fildelingsdatasæt eller -vektorlag.

Vælg et lag, der skal forudsiges værdier for


Et vektorlag, der repræsenterer steder, hvor der vil blive udført forudsigelser. Dette vektorlag skal også indeholde eventuelle forklarende variabler, der er angivet som felter, som svarer til dem, der anvendes fra træningsobjekterne.

Udover at du kan vælge et lag i dit kort, kan du vælge Vælg analyselag nederst på rullelisten for at gå til dit indhold til et big data-fildelingsdatasæt eller -vektorlag.

Vælg det felt, der skal forudsiges


Feltet fra træningsobjekterne indeholder de værdier, der skal bruges til træning af modellen. Dette felt indeholder kendte (trænings-) værdier af den variabel, der bliver brugt til at forudsige på ukendte steder. Hvis værdierne er kategoriske (f.eks. Ahorn, Fyr, Eg), skal du markere afkrydsningsfeltet Kategorisk.

Vælg en eller flere forklarende variabler


Et eller flere felter, der repræsenterer de forklarende variabler (felter), som hjælper med at forudsige værdien eller kategorien af ​​variablen, der skal forudsiges. Brug det kategoriske afkrydsningsfelt for eventuelle variabler, der repræsenterer klasser eller kategorier (f.eks. overflademateriale eller tilstedeværelse eller fravær). Angiv variablen som sand for alle, der repræsenterer klasser eller kategorier som overflademateriale eller tilstedeværelse eller fravær, og falsk, hvis variablen er kontinuerlig.

Antal træer


Antallet af træer, der skal oprettes i modellen. Flere træer giver generelt i en mere præcis modelforudsigelse, men det vil tage længere tid at beregne modellen. Antallet af ​​træer er som standard 100.

Mindste bladstørrelse


Det mindste antal observationer, der kræves for at holde et blad (det er terminalknuden på et træ uden yderligere delinger). Minimumet for regression er som standard 5, og standarden for klassificering er 1. For meget store datamængder vil en forøgelse af ​​disse tal reducere værktøjets kørselstid.

Maksimal trædybde


Det maksimale antal delinger, der vil blive lavet ned ad et træ. Hvis du benytter en stor maksimaldybde, oprettes der flere splittelser, hvilket kan øge risikoen for overfitting af modellen. Standarden er datadrevet og afhænger af antallet af træer, der oprettes, og antallet af variabler, der er inkluderet.

Tilgængelige data pr. træ (%)


Angiver procentdelen af ​​objekterne i træningslaget, der anvendes til hvert beslutningstræ. Standard er 100 procent af dataene. Prøver for hvert træ udtages tilfældigt fra to tredjedele af de angivne data.

Hvert beslutningstræ i skoven er oprettet ved hjælp af en tilfældigt eksempel eller undergruppe (ca. to tredjedele) af de tilgængelige træningsdata. Ved at bruge en lavere procentdel af indtastningsdataene for hvert beslutningstræ øges værktøjets hastighed ved meget store datasæt.

Antal vilkårligt udtagne variabler


Angiver antallet af forklarende variabler, der bruges til at oprette hvert beslutningstræ.

Hvert af beslutningstræerne i skoven er oprettet ved hjælp af en tilfældig undergruppe af de angivne forklarende variabler. En forøgelse af antallet af variabler, der anvendes i hvert beslutningstræ, vil øge risikoen for for overfitting af modellen, især hvis der er et eller nogle få dominerende variabler. En almindelig fremgangsmåde er at bruge kvadratroden af ​​det samlede antal forklarende variabler, hvis den variabel, der skal forudsiges, er numerisk, eller dividere det samlede antal forklarende variabler med 3, hvis den variabel, der skal forudsiges, er kategorisk.

Vælg, hvordan forklarende felter skal matches


Hvordan de tilsvarende variabler i træningslaget matcher variablerne i forudsigelseslaget. Kun de variabler, der anvendes i træning, medtages i tabellen.

Antal kørsler med henblik på validering


Angiver procentdelen (mellem 0 procent og 50 procent) af objekter i træningslaget, der skal reserveres som testdatasæt til validering. Modellen bliver trænet uden denne tilfældige delmængde af data, og de observerede værdier for disse objekter bliver sammenlignet med den forudsagte værdi. Standard er 10 procent.

Navn på resultatlag


Dette er navnet på det lag, som oprettes i Mit indhold og føjes til kortet. Standardnavnet er baseret på navnet på værktøjet og navnet på inputlaget. Hvis laget allerede findes, vil du blive bedt om at angive et andet navn.

De returnerede resultater afhænger af typen af ​​analyse. Hvis du træner for at vurdere modeltilpasning, vil resultaterne indeholde et lag af træningsdata, der passer til modellen og resultatoplysninger, der vurderer modeltilpasningen. Hvis du træner og forudsiger, vil resultaterne indeholde et lag af træningsdataene, der passer til modellen, et lag af forudsagte resultater og resultatoplysninger, der vurderer modeltilpasningen.

Ved hjælp af rullelisten Gem resultat i kan du angive navnet på en mappe i Mit indhold, hvor resultatet skal gemmes.