Clasificare și regresie pe baza unei păduri de arbori decizionali

Creează modele și generează predicții folosind o adaptare a algoritmului lui Leo Breiman bazat pe o pădure aleatoare, care reprezintă o metodă de machine learning supervizată Predicțiile pot fi efectuate atât pentru variabilele categorice (clasificare), cât și pentru variabilele continue (regresie). Variabilele explicative sunt câmpuri din tabelul de atribute al obiectelor spațiale de antrenare. Instrumentul poate fi executat pentru a genera un model pentru a evalua performanța sau pentru a genera un model și a prezice rezultatele la alte seturi de date.

Tip analiză

Specifică modul de funcționare a instrumentului. Instrumentul poate fi executat pentru a antrena un model doar pentru a evalua performanța sau pentru a antrena un model și a prezice rezultatele altor obiecte spațiale. Tipurile de predicție sunt după cum urmează:

Antrenarea unui model pentru a evalua performanța modelului - Un model va fi antrenat și potrivit cu datele de intrare. Utilizați această opțiune pentru a evalua precizia modelului dvs. înainte de a genera predicții pe un nou set de date. Rezultatul acestei opțiuni va fi un serviciu de obiecte spațiale a datelor de antrenare potrivite, diagnosticarea modelului și un tabel opțional de importanță variabilă.
Antrenarea unui model și prezicerea de valori - Vor fi generate predicții sau clasificări pentru obiecte spațiale. Trebuie furnizate variabile explicative atât pentru obiectele spațiale de antrenare, cât și pentru obiectele spațiale pentru care urmează să se facă predicții. Rezultatul acestei opțiuni va fi un serviciu de obiecte spațiale al valorilor estimate, diagnosticarea modelului și un tabel opțional de importanță variabilă.

Antrenarea unui model pentru evaluarea performanței modelului

Utilizați acest mod dacă doriți să potriviți un model și să investigați potrivirea acestuia.

Prin această opțiune modelul vor fi antrenat folosind un strat tematic de intrare. Utilizați această opțiune pentru a evalua precizia modelului dvs. înainte de a genera predicții pe un nou set de date. Această opțiune va afișa diagnosticul modelului în fereastra de mesaje și va aplica modelul datelor de antrenare.

Antrenarea unui model și prezicerea de valori

Utilizați acest mod dacă doriți să potriviți un model și să aplicați modelul la setul de date pentru a genera predicții.

Se vor genera predicții sau clasificări pentru obiecte spațiale. Rezultatul acestei opțiuni va fi un serviciu de obiecte spațiale, diagnosticarea modelului și un tabel opțional de importanță variabilă.

Selectați stratul tematic de antrenare

Stratul tematic de obiecte spațiale care conține variabila pentru care să se facă predicții și câmpurile care vor fi folosite pentru a genera predicția.

În afară de a alege un strat tematic din harta dvs., puteţi selecta opţiunile Alegere strat tematic de analiză în partea inferioară a listei verticale pentru a răsfoi conţinutul pentru stratul tematic sau setul de date pentru partajarea de fişiere big data.

Alegeți un strat tematic pentru care să preziceți valori

Un strat tematic de obiecte spațiale reprezentând locațiile în care se vor face predicțiile. Acest strat tematic de obiecte spațiale trebuie să conțină, de asemenea, orice variabile explicative furnizate în calitate de câmpuri care corespund celor utilizate de obiectele spațiale de antrenament.

Alegeţi câmpul pentru care doriţi să faceți predicții

Câmpul din obiectele spațiale de antrenament care conține valorile care trebuie utilizate pentru antrenarea modelului. Acest câmp conține valori cunoscute (de antrenament) ale variabilei care va fi utilizată pentru prezicerea în locații necunoscute. Dacă valorile sunt categorice (de exemplu Arțar, Pin, Stejar), selectați caseta de bifat Valori categorice.

Alegeți una sau mai multe variabile explicative

Unul sau mai multe câmpuri care reprezintă variabilele explicative (câmpuri) care ajută la prezicerea valorii sau a categoriei unei variabile de prezis. Utilizați caseta de bifat pentru valori categorice pentru orice variabile care reprezintă clase sau categorii (cum ar fi acoperirea terenului sau prezența sau absența). Specificați variabila ca fiind adevărată pentru orice reprezintă clase sau categorii cum ar fi acoperirea terenului sau prezența sau absența și falsă dacă variabila este continuă.

Numărul de arbori

Numărul de arbori de creat în model. În general mai mulți arbori vor genera o predicție a modelului mult mai precisă, dar va dura mai mult timp pentru a calcula modelul. Numărul implicit de arbori este de 100.

Dimensiunea minimă a frunzei

Numărul minim de observații necesare pentru a păstra o frunză (adică nodul terminal pe un arbore fără alte subdivizări). Valoarea implicită pentru regresie este de 5, iar valoarea implicită pentru clasificare este 1. Pentru date foarte mari, creșterea acestor numere va reduce timpul de funcționare al instrumentului.

Adâncimea maximă a arborelui

Numărul maxim de divizări care vor fi făcute pe un arbore. Folosind o adâncime maximă mare, vor fi create mai multe divizări, ceea ce poate spori șansele unui model cu asupra de date. Valoarea implicită este determinată de date și depinde de numărul de arbori creați și de numărul de variabile incluse.

Datele disponibile pe arbore (%)

Specifică procentul de obiecte spațiale din stratul tematic de antrenament folosit pentru fiecare arbore de decizie. Valoarea implicită este procent de 100% din date. Eșantioanele pentru fiecare arbore sunt luate aleatoriu din două treimi din datele specificate.

Fiecare arbore de decizie din pădure este creat utilizând un eșantion sau un subset aleator (aproximativ două treimi) din datele de antrenament disponibile. Folosind un procent mai mic din datele de intrare pentru fiecare arbore de decizie crește viteza instrumentului pentru seturi de date foarte mari.

Numărul de variabile alese în mod aleatoriu

Specifică numărul de variabile explicative utilizate pentru crearea fiecărui arbore de decizie.

Fiecare arbore de decizie din pădure este creat folosind un subset aleatoriu al variabilelor explicative specificate. Creșterea numărului de variabile utilizate în fiecare arbore de decizie va crește șansele de asupra de date pentru modelul dvs., mai ales dacă există una sau două variabile dominante. O practică obișnuită este folosirea rădăcinii pătrate a numărului total de variabile explicative dacă variabila de prezis este numerică sau împărțiți numărul total al variabilelor explicative cu 3 dacă variabila de prezis este de tip categorie.

Alegeți cum sunt potrivite câmpurile explicative

Modul în care variabilele corespunzătoare din stratul de antrenament se vor potrivi cu variabilele din stratul de predicție. Numai variabilele utilizate în antrenament vor fi incluse în tabel.

Numărul de rulări pentru validare

Specifică procentul de obiecte spațiale (între 0% și 50%) din stratul de antrenament care trebuie rezervat ca set de date de testare pentru validare. Modelul va fi antrenat fără acest subset de date aleatorii, iar valorile observate pentru aceste obiecte spațiale vor fi comparate cu valoarea estimată. Valoarea implicită este 10%.

Nume strat tematic rezultat

Acesta este numele stratului tematic care va fi creat în Resursele mele și adăugat în hartă. Numele implicit se bazează pe numele instrumentului și numele stratului tematic de intrare. Dacă stratul tematic rezultat există deja, vi se va solicita să furnizați un alt nume.

Rezultatele returnate vor depinde de tipul de analiză. Dacă faceți antrenament pentru a evalua potrivirea modelului, rezultatele vor conține un strat tematic de date de antrenament potrivite modelului și informații rezultat ce evaluează potrivirea modelului. Dacă faceți antrenament și predicție, rezultatele vor conține un strat tematic de date de antrenament potrivite modelulului, un strat tematic de rezultate prezise, și informații rezultat ce evaluează potrivirea modelului.

Utilizând caseta derulantă Salvare rezultat în, puteți specifica numele unui director din Resursele mele în care va fi salvat rezultatul.