Klasifikacija i regresija zasnovana na šumi

Dijagram radnog toka Klasifikacije i regresije zasnovane na šumi


Kreira modele i generiše predviđanja korišćenjem adaptacije algoritma šume nasumičnih stabala Lea Brimana, metodom mašinskog učenja pod nadzorom. Predviđanja mogu da se izvrše za obe kategorijske promenljive (klasifikacija) i neprekidne promenljive (regresija). Opisne promenljive su polja u atributnoj tabeli geoobjektima obuke. Alatka može da se pokrene da generiše model radi procene performansi ili da generiše model i predvidi rezultate drugog skupa podataka.

Tip analize


Navodi režim rada alatke. Alatka može da se pokrene radi obučavanja modela da samo proceni performanse ili da obuči model i predvidi geoobjekte. Vrste predviđanja su sledeće:

  • Obuči model radi procene performansi modela – model će biti obučen i uklopljen sa ulaznim podacima. Koristite ovu opciju da procenite tačnost svog modela pre generisanja predviđanja na novom skupu podataka. Izlaz ove opcije će biti servis geoobjekata vaših uklopljenih podataka za obuku, dijagnostika modela i opciona tabela promenljive važnosti.
  • Obuči model i predvidi vrednosti – generisaće se predviđanja ili klasifikacije za geoobjekte. Opisne promenljive moraju da se unesu i za geoobjekte obuke i za geoobjekte koje treba predvideti. Izlaz ove opcije će biti servis geoobjekata vaših predviđenih vrednosti, dijagnostika modela i opciona tabela promenljive važnosti.

Obuči model radi procene performansi modela


Koristite ovaj režim ako želite da uklopite model i ispitate uklapanje.

Sa ovim izborom, model će biti obučen korišćenjem ulaznog sloja. Koristite ovu opciju da procenite tačnost svog modela pre generisanja predviđanja na novom skupu podataka. Ova opcija će dati dijagnostiku modela u prozoru za poruke i primeniti model na vaše podatke za obuku.

Obuči model i predvidi vrednosti


Koristite ovaj režim ako želite da uklopite model i primenite model na skup podataka radi generisanja predviđanja.

Generisaće se predviđanja ili klasifikacije za geoobjekte. Izlaz ove opcije će biti servis geoobjekata, dijagnostika modela i opciona tabela promenljive važnosti.

Odaberite sloj obuke


Sloj geoobjekta koji sadrži promenljivu za predviđanje i polja koja će se koristiti za generisanje predviđanja.

Kao dodatak odabiru sloja iz mape, možete da odaberete Izaberi sloj za analizu na dnu padajuće liste da biste potražili deljeni skup podataka za datoteke sa velikim podacima ili sloj geoobjekta u svojim sadržajima.

Odaberite sloj za predviđanje vrednosti


Sloj geoobjekta koji predstavlja lokacije na kojima će se napraviti predviđanja. Ovaj sloj geoobjekta mora da sadrži i sve opisne promenljive koje su date kao polja koja odgovaraju onima koja se koriste iz geoobjekata obuke.

Kao dodatak odabiru sloja iz mape, možete da odaberete Izaberi sloj za analizu na dnu padajuće liste da biste potražili deljeni skup podataka za datoteke sa velikim podacima ili sloj geoobjekta u svojim sadržajima.

Odaberite polje za predviđanje


Polje iz geoobjekata obuke koje sadrži vrednosti koje treba koristiti za obuku modela. Ovo polje sadrži poznate vrednosti (za obuku) promenljive koje će se koristiti za predviđanje na nepoznatim lokacijama. Ako su vrednosti kategorijske (na primer Javor, Bor, Hrast), izaberite polje za potvrdu Kategorijske.

Odaberite jednu ili više opisnih promenljivih


Jedno ili više polja koja predstavljaju opisne promenljive (polja) koje pomažu u predviđanju vrednosti ili kategorije promenljive koju treba predvideti. Koristite kategorijsko polje za potvrdu za sve promenljive koje predstavljaju klase ili kategorije (kao što je zemljin pokrivač ili prisustvo ili odsustvo). Označite promenljivu kao tačnu za sve koje predstavljaju klase ili kategorije kao što je zemljin pokrivač ili prisustvo ili odsustvo, a kao netačnu ako je promenljiva neprekidna.

Broj stabala


Broj stabala za kreiranje u modelu. Više stabala će obično za rezultat imati tačnije predviđanje modela, ali će za izračunavanje modela biti potrebno više vremena. Podrazumevani broj stabala je 100.

Minimalna veličina lista


Minimalni broj opservacija koje su potrebne da se list zadrži (to je krajnji čvor na stablu bez daljih podela). Podrazumevani minimum za regresiju je 5, a podrazumevani za klasifikaciju je 1. Za veoma velike podatke, povećavanje ovih brojki će skratiti vreme rada alatke.

Maksimalna dubina stabla


Maksimalan broj podela koje će biti izvršene niz stablo. Korišćenjem velike maksimalne dubine biće kreirano više podela, što može da poveća mogućnosti za prekomerno uklapanje modela. Podrazumevana je vođena podacima i zavisi od broja kreiranih stabala i broja uključenih promenljivih.

Dostupni podaci po stablu (%)


Navodi procenat geoobjekata u sloju obuke koji se koriste za svako stablo odluke. Podrazumevano je 100 procenata podataka. Uzorci za svako stablo se uzimaju nasumično iz dve trećine navedenih podataka.

Svako stablo odluke u šumi je kreirano pomoću nasumičnog uzorka ili podskupa (približno dve trećine) dostupnih podataka za obuku. Korišćenje manjeg procenta ulaznih podataka za svako stablo odluke povećava brzinu alatke za veoma velike skupove podataka.

Broj nasumično uzorkovanih promenljivih


Navodi broj opisnih promenljivih koje se koriste za kreiranje svakog stabla odluke.

Svako od stabala odluke u šumi je kreirano pomoću nasumičnog podskupa navedenih opisnih promenljivih. Povećavanje broja promenljivih koje se koriste u svakom stablu odluke će povećati mogućnosti prekomernog uklapanja vašeg modela, naročito ako postoji jedna ili par uticajnih promenljivih. Uobičajena praksa je korišćenje kvadratnog korena od ukupnog broja opisnih promenljivih ako je promenljive za predviđanje numerička ili deljenjem ukupnog broja opisnih promenljivih sa 3 ako je promenljiva za predviđanje kategorijska.

Odaberite kako će se podudarati opisna polja


Kako će se odgovarajuće promenljive u sloju za obuku podudarati sa promenljivima u sloju predviđanja. U tabelu će biti uključene samo promenljive koje se koriste za obuku.

Broj izvršavanja za proveru valjanosti


Navodi procenat (između 0 i 50 procenata) geoobjekata u sloju obuke za rezervisanje u vidu skupa podataka testa za proveru valjanosti. Model će biti obučen bez ovog nasumičnog podskupa podataka, a vrednosti opservacije za te geoobjekte će biti upoređene sa predviđenom vrednošću. Podrazumevano je 10 procenata.

Naziv sloja sa rezultatima


Ovo je naziv sloja koji će biti kreiran u Mom sadržaju i dodat na mapu. Podrazumevani naziv je zasnovan na nazivu alatke i nazivu ulaznog sloja. Ako sloj već postoji, bićete upitani da unesete drugi naziv.

Vraćeni rezultati će zavisiti od tipa analize. Ako obučavate radi procene uklapanja modela, rezultati će sadržati sloj podataka obuke koji je uklopljen sa modelom i informacije o rezultatu procene uklapanja modela. Ako obučavate i predviđate, rezultati će sadržati sloj podataka obuke koji je uklopljen sa modelom, sloj predviđenih rezultata i informacije o rezultatu procene uklapanja modela.

Koristeći Sačuvaj rezultat u padajućem polju, možete da navedete ime fascikle u Mom sadržaju u kojoj će rezultat biti sačuvan.