Klasifikacija in regresija na podlagi gozdov

Diagram delovnega procesa klasifikacije in regresije na podlagi gozdov


Ustvarja modele in napovedi s prilagojenim algoritmom naključnih gozdov Lea Breimana, ki je metoda nadzorovanega strojnega učenja. Napovedi je možno izdelati tako za kategorične spremenljivke (klasifikacija) kot za stalne spremenljivke (regresija). Pojasnjevalne spremenljivke so polja v atributni tabeli učnih geoobjektov. Orodje je mogoče uporabiti za ustvarjanje modela za ocenjevanje uspešnosti ali za ustvarjanje modela in napovedovanje rezultatov za druge sklope podatkov.

Tip analize


Določa način delovanja orodja. Orodje je mogoče uporabiti za učenje modela, da ocenjuje samo uspešnost, ali za učenje modela in napovedovanje geoobjektov. Tipi napovedi so naslednji:

  • Učenje modela za ocenjevanje uspešnosti modela – model bo naučen in prilagojen za vhodne podatke. To možnost uporabite za ocenjevanje natančnosti svojega modela pred ustvarjanjem napovedi za nov sklop podatkov. Rezultati te možnosti bodo geoobjektna storitev vaših prilagojenih učnih podatkov, diagnostike modela in tabela možnosti spremenljivega pomena.
  • Učenje modela in napovedovanje vrednosti – za geoobjekte bodo ustvarjene napovedi ali klasifikacije. Pojasnjevalne spremenljivke je treba zagotoviti tako za učne geoobjekte kot za geoobjekte, ki jih je treba napovedati. Rezultati te možnosti bodo geoobjektna storitev vaših napovedanih vrednosti, diagnostike modela in tabela možnosti spremenljivega pomena.

Učenje modela za ocenjevanje uspešnosti modela


Ta način uporabite, če želite prilagoditi model in preveriti prilagoditev.

Model bo s to izbiro in uporabo vhodnega sloja naučen. To možnost uporabite za ocenjevanje natančnosti svojega modela pred ustvarjanjem napovedi za nov sklop podatkov. Ta možnost bo kot rezultat dala diagnostiko modela v oknu s sporočili in uporabila model na vaših učnih podatkih.

Učenje modela in napovedovanje vrednosti


Ta način uporabite, če želite prilagoditi model in ga za ustvarjanje napovedi uporabiti na sklopu podatkov.

Za geoobjekte bodo ustvarjene napovedi ali klasifikacije. Rezultati te možnosti bodo geoobjektna storitev, diagnostike modela in poljubna tabela možnosti spremenljivega pomena.

Izberi učni sloj


Geoobjektni sloj, ki vsebuje spremenljivko za napovedovanje in polja, ki se bodo uporabljala za ustvarjanje napovedi.

Poleg izbire sloja s svoje karte lahko na dnu spustnega seznama izberete Izberi sloj za analizo, da po svoji vsebini poiščete delitev datotek velikih podatkov ali geoobjektni sloj.

Izberi sloj za napovedovanje vrednosti za


Geoobjektni sloj, ki predstavlja lokacije, kjer bodo izdelane napovedi. Ta geoobjektni sloj mora prav tako vsebovati vse pojasnjevalne spremenljivke, ki so na voljo kot polja, ki ustrezajo tistim, ki so uporabljena iz učnih geoobjektov.

Poleg izbire sloja s svoje karte lahko na dnu spustnega seznama izberete Izberi sloj za analizo, da po svoji vsebini poiščete delitev datotek velikih podatkov ali geoobjektni sloj.

Izberi polje za napovedovanje


Polje iz učnih geoobjektov, ki vsebuje vrednosti, ki jih je treba uporabiti za učenje modela. To polje vsebuje znane (učne) vrednosti spremenljivke, ki se bo za napovedovanje uporabljala na neznanih lokacijah. Če so vrednosti kategorične (na primer, javor, bor, hrast), izberite izbirno polje Kategorično.

Izberite eno ali več pojasnjevalnih spremenljivk


Eno ali več polj, ki predstavljajo pojasnjevalne spremenljivke (polja), ki pomagajo pri napovedovanju vrednosti ali kategorije spremenljivke, ki jo je treba napovedati. Uporabite izbirno polje Kategorično za vse spremenljivke, ki predstavljajo razrede ali kategorije (kot je pokrovnost tal ali prisotnost ali odsotnost). Spremenljivko določite kot resnično za vse, ki predstavljajo razrede ali kategorije, kot je pokrovnost tal ali prisotnost ali odsotnost in kot neresnično, če je spremenljivka stalna.

Število dreves


Število dreves, ki jih je treba ustvariti v modelu. Več dreves bo na splošno zagotovilo natančnejšo napoved modela, vendar bo model za izračun potreboval več časa. Privzeto število dreves je 100.

Minimalna velikost listov


Minimalno število opazovanj, potrebnih za ohranjanje lista (to je terminalsko vozlišče na drevesu brez dodatnih razdelitev). Privzeti minimum za regresijo je 5, za klasifikacijo pa 1. Pri zelo velikih podatkih bo povečanje teh številk zmanjšalo čas izvajanja orodja.

Maksimalna globina drevesa


Maksimalno število razdelitev, ki bodo izvedene navzdol po drevesu. Z maksimalno globino bo ustvarjenih več razdelitev, kar lahko poveča možnosti za prekomerno prilagajanje modela. Privzeto je podatkovno vodeno in je odvisno od števila ustvarjenih dreves in števila vključenih spremenljivk.

Razpoložljivih podatkov na drevo (%)


Določa odstotek geoobjektov na učnem sloju, ki se uporablja za vsako odločitveno drevo. Privzetih je 100 odstotkov podatkov. Vzorci za vsako drevo so odvzeti naključno iz dveh tretjin navedenih podatkov.

Vsako odločitveno drevo v gozdu je ustvarjeno z naključnim vzorcem ali podizborom (približno dve tretjini) razpoložljivih učnih podatkov. Uporaba nižjega odstotka vhodnih podatkov za vsako odločitveno drevo poveča hitrost orodja pri zelo velikih sklopih podatkov.

Število naključno vzorčenih spremenljivk


Določa število pojasnjevalnih spremenljivk, uporabljenih za ustvarjanje vsakega odločitvenega drevesa.

Vsako odločitveno drevo v gozdu je ustvarjeno z naključnim podizborom določenih pojasnjevalnih spremenljivk. Povečanje števila spremenljivk, uporabljenih pri vsakem odločitvenem drevesu, bo povečalo možnosti za prekomerno prilagajanje vašega modela, še zlasti če obstaja ena ali več prevladujočih spremenljivk. Običajna praksa je uporaba kvadratnega korena skupnega števila pojasnjevalnih spremenljivk, če je vaša spremenljivka, ki jo je treba napovedati, številčna, ali je treba skupno število pojasnjevalnih spremenljivk deliti s 3, če je spremenljivka, ki jo je treba napovedati, kategorična.

Izberite način ujemanja pojasnjevalnih polj


Kako se bodo ustrezne spremenljivke na učnem sloju ujemale s spremenljivkami na napovedovalnem sloju. V tabelo bodo vključene samo spremenljivke, uporabljene pri učenju.

Število izvajanj validacije


Določa odstotek (med 0 in 50 odstotkov) geoobjektov na učnem sloju, ki jih je treba rezervirati kot testni sklop podatkov za validacijo. Izvedeno bo učenje modela brez te naključne podizbire podatkov, opazovane vrednosti za te geoobjekte pa bodo primerjane z napovedano vrednostjo. Privzetih je 10 odstotkov.

Ime sloja z rezultati


To je ime sloja, ki bo ustvarjen v Moji vsebini in dodan na karto. Privzeto ime temelji na imenu orodja in imenu vhodnega sloja. Če sloj že obstaja, bo od vas zahtevano, da vnesete drugo ime.

Vrnjeni rezultati bodo odvisni od vrste analize. Če učenje izvajate za ocenjevanje prilagoditve modela, bodo rezultati vsebovali sloj z učnimi podatki, ki je prilagojen modelu, in informacije rezultata o ocenjevanju prilagoditve modela. Če izvajate učenje in napovedovanje, bodo rezultati vsebovali sloj z učnimi podatki, ki so prilagojeni modelu, sloj z napovedanimi rezultati in informacije rezultata o ocenjevanju prilagoditve modela.

S pomočjo spustnega menija Shrani rezultat v lahko navedete ime mape v Moja vsebina, kjer bo shranjen rezultat.