Skogbasert klassifisering og regresjon

Oppretter modeller og genererer prediksjoner ved hjelp av en tilpasset versjon av Leo Breimans Random Forest-algoritme, som er en metode for veiledet maskinlæring. Prediksjoner kan utføres for både kategoriske variabler (klassifisering) og kontinuerlige variabler (regresjon). Forklaringsvariabler er felter i attributtabellen til treningsgeoobjekter. Verktøyet kan kjøres for å generere en modell for å vurdere ytelse, eller generere en modell og predikere resultater for andre datasett.

Analysetype

Angir verktøyets driftsmodus. Verktøyet kan kjøres for å trene opp en modell til kun å vurdere ytelse, eller trene opp en modell og predikere for geoobjekter. Prediksjonstypene er følgende:

Tren opp en modell til å vurdere modellytelse – En modell trenes opp og tilpasses inndataene. Bruk dette alternativet til å vurdere nøyaktigheten av modellen du bruker, før du genererer prediksjoner på et nytt datasett. Resultatet av dette alternativet blir en geoobjekttjeneste for de tilpassede treningsdataene, for modelldiagnostikken og en valgfri tabell med varierende viktighetsgrad.
Tren opp en modell og prediker verdier – Prediksjoner eller klassifiseringer genereres for geoobjekter. Forklaringsvariabler må oppgis for både treningsgeoobjektene og for geoobjektene som skal predikeres. Resultatet av dette alternativet blir en geoobjekttjeneste for de predikerte verdiene, for modelldiagnostikken og en valgfri tabell med varierende viktighetsgrad.

Tren opp en modell til å vurdere modellytelse

Bruk denne modusen hvis du vil tilpasse en modell og undersøke tilpasningen.

Med dette valget blir modellen trent opp ved hjelp av et inndatalag. Bruk dette alternativet til å vurdere nøyaktigheten av modellen du bruker, før du genererer prediksjoner på et nytt datasett. Dette alternativet utarbeider modelldiagnoser i meldingsvinduet og anvender modellen på treningsdataene.

Tren opp en modell og prediker verdier

Bruk denne modusen hvis du vil tilpasse en modell og anvende modellen på datasettet for å generere prediksjoner.

Prediksjoner eller klassifiseringer genereres for geoobjekter. Resultatet av dette alternativet blir en geoobjekttjeneste, modelldiagnostikk og en valgfri tabell med varierende viktighetsgrad.

Velg treningslag

Geoobjektlaget som inneholder variabelen som skal predikeres, og feltene som skal brukes til å generere prediksjonen.

I tillegg til å velge et lag fra kartet kan du velge Velg analyselag nederst i rullegardinlisten, for å bla gjennom innholdet på et fildelingsområde for stordata eller et geoobjektlag.

Velg et lag å predikere verdier for

Et geoobjektlag som representerer lokasjoner der prediksjoner skal foretas. Dette geoobjektlaget må også inneholde eventuelle forklaringsvariabler i form av felter som samsvarer med dem som ble brukt fra treningsgeoobjektene.

I tillegg til å velge et lag fra kartet kan du velge Velg analyselag nederst i rullegardinlisten, for å bla gjennom innholdet på et fildelingsområde for stordata eller et geoobjektlag.

Velg feltet som skal predikeres

Feltet fra treningsgeoobjektene som inneholder verdiene som skal brukes til å trene opp modellen. Dette feltet inneholder kjente (trenings-) verdier av variabelen som skal brukes til å predikere på ukjente lokasjoner. Hvis verdiene er kategoriske (f.eks. lønn, furu, eik), velges avmerkingsboksen Kategorisk.

Velg én eller flere forklaringsvariabler

Ett eller flere felter som representerer forklaringsvariablene (felter) som bidrar til å predikere verdien eller kategorien for variabelen som skal predikeres. Bruk avmerkingsboksen Kategorisk for eventuelle variabler som representerer klasser eller kategorier (f.eks. arealdekke eller tilstedeværelse eller fravær). Angi variabelen som sann for hvis den representerer klasser eller kategorier som arealdekke eller tilstedeværelse eller fravær, og som usann hvis variabelen er kontinuerlig.

Antall trær

Antall trær som skal opprettes i modellen. Flere trær resulterer som regel i mer nøyaktig modellprediksjon, men beregningen av modellen tar lengre tid. Standard antall trær er 100.

Minste bladstørrelse

Minste antall observasjoner som kreves for å beholde et blad (dvs. siste node på et tre uten flere oppdelinger). Standard minimum for regresjon er 5, og standarden for klassifisering er 1. For svært store datamengder reduseres verktøyets kjøretid hvis disse tallene forhøyes.

Maksimal tredybde

Det maksimale antallet oppdelinger som kan utføres nedover et tre. En stor maksimal dybde gir flere oppdelinger, noe som kan øke faren for overtilpassing av modellen. Standarden er datadrevet og avhenger av antall trær som opprettes og antall variabler som inkluderes.

Tilgjengelige data per tre (%)

Angir prosentandelen av geoobjektene i treningslaget som brukes i hvert beslutningstre. Standarden er 100 prosent av dataene. Et utvalg for hvert tre tas vilkårlig fra to tredjedeler av de angitte dataene.

Hvert av beslutningstrærne i skogen opprettes ved hjelp av et tilfeldig utvalg (ca. to tredjedeler) av de tilgjengelige treningsdataene. Hvis det brukes en lavere prosentandel inndata for hvert beslutningstre, økes verktøyets hastighet for svært store datasett.

Antall tilfeldig utvalgte variabler

Angir antallet forklaringsvariabler som brukes til å opprette hvert enkelt beslutningstre.

Hvert av beslutningstrærne i skogen opprettes ved hjelp av en vilkårlig delmengde av de angitte forklaringsvariablene. Hvis antallet variabler som brukes i hvert enkelt beslutningstre økes, øker faren for overtilpassing av modellen, spesielt hvis det foreligger én eller et par dominerende variabler. En vanlig praksis er å bruke kvadratroten av det totale antallet forklaringsvariabler dersom det er en numerisk variabel som skal predikeres, eller dele det totale antallet forklaringsvariabler på 3 dersom det er en kategorisk variabel som skal predikeres.

Velg hvordan forklaringsfelter skal samsvare

Hvordan tilsvarende variabler i treningslaget skal samsvare med variablene i prediksjonslaget. Kun variablene som brukes til trening, blir inkludert i tabellen.

Antall kjøringer for validering

Angir prosentandelen (mellom 0 og 50 prosent) av geoobjekter i treningslaget som skal inngå i testdatasettet for validering. Modellen blir trent opp uten denne delmengden med data, og verdiene som observeres for de aktuelle geoobjektene, blir sammenlignet med den predikerte verdien. Standarden er 10 prosent.

Navn på resultatlag

Dette er navnet på laget som opprettes i Mitt innhold og legges til kartet. Standardnavnet er basert på verktøynavnet og navnet på inndatalaget. Hvis laget allerede finnes, blir du bedt om å oppgi et annet navn.

Resultatene som returneres, vil avhenge av type analyse. Hvis treningens formål er å vurdere modelltilpassing, vil resultatene inneholde et lag med treningsdata tilpasset modellen og resultatinformasjon som vurderer modelltilpassingen. Hvis det dreier seg om trening og prediksjon, vil resultatene inneholde et lag med treningsdata tilpasset modellen og et lag med predikerte resultater samt resultatinformasjon som vurderer modelltilpassingen.

Bruk rullegardinlisten Lagre resultat i til å angi navnet på en mappe i Mitt innhold som resultatene skal lagres i.