Classificazione e regressione basate sulla foresta

Diagramma del flusso di lavoro di Classificazione e regressione basate sulla foresta


Crea modelli e genera previsioni utilizzando un adattamento dell'algoritmo della foresta causale di Leo Breiman, un metodo di apprendimento automatico revisionato. Le previsioni possono essere eseguite tanto per variabili categoriche (classificazione) quanto per variabili continue (regressione). Le variabili esplicative sono campi nella tabella degli attributi delle feature di addestramento. È possibile eseguire lo strumento per generare un modello per valutare le prestazioni o per generare un modello e prevedere risultati su altri dataset.

Tipo di analisi


Specifica la modalità operativa dello strumento. È possibile eseguire lo strumento per addestrare un modello solo per valutare le prestazioni o per addestrare un modello ed eseguire previsioni sulle feature. I tipi di previsioni sono i seguenti:

  • Addestrare un modello per valutare le prestazioni del modello: un modello sarà addestrato e adattato ai dati di input. Usare questa opzione per valutare la precisione del modello prima di generare previsioni su un nuovo dataset. Il risultato di questa opzione sarà un feature service dei dati di addestramento adattati, le diagnostiche del modello e una tabella opzionale di importanza variabile.
  • Addestrare un modello e prevedere i valori: si genereranno previsioni o classificazioni per le feature. È necessario fornire variabili esplicative sia per le feature di addestramento sia per le feature da prevedere. Il risultato di questa opzione sarà un feature service dei valori previsti, le diagnostiche del modello e una tabella opzionale di importanza variabile.

Addestrare un modello per valutare le prestazioni del modello


Usare questa modalità se si desidera adattare un modello e indagare sull'adattamento.

Con questa scelta il modello sarà addestrato usando un layer di input. Usare questa opzione per valutare la precisione del modello prima di generare previsioni su un nuovo dataset. Questa opzione genererà diagnostiche del modello nella finestra dei messaggi e applicherà il modello ai dati di addestramento.

Addestrare un modello e prevedere valori


Usare questa modalità se si desidera adattare un modello e applicare il modello al dataset per generare previsioni.

Si genereranno previsioni o classificazioni per le feature. Il risultato di questa opzione sarà un feature service, le diagnostiche del modello e una tabella opzionale di importanza variabile.

Scegliere un layer di addestramento


Il feature layer contenente la variabile da prevedere e i campi che saranno usati per generare la previsione.

Oltre a scegliere un layer dalla mappa, è possibile selezionare Scegli layer di analisi alla base dell'elenco a discesa per cercare un dataset di condivisione file Big Data o un feature layer.

Scegliere un layer per il quale prevedere valori


Un feature layer che rappresenta le posizioni in cui si eseguiranno le previsioni. Questo feature layer deve contenere anche qualunque variabile esplicativa fornita come campo che corrisponda a quelle usate nelle feature di addestramento.

Oltre a scegliere un layer dalla mappa, è possibile selezionare Scegli layer di analisi alla base dell'elenco a discesa per cercare un dataset di condivisione file Big Data o un feature layer.

Scegliere il campo da prevedere


Il campo delle feature di addestramento contenente i valori da usare per addestrare il modello. Questo campo contiene valori (di addestramento) noti della variabile che si useranno per le previsioni in posizione sconosciute. Se i valori sono categorici (ad esempio, Acero, Pino, Quercia), selezionare la casella Categorico.

Scegliere una o più variabili esplicative


Uno o più campi che rappresentano variabili esplicative (campi) che contribuiscano a prevedere il valore o la categoria della variabile da prevedere. Usare la casella Categorico per qualunque variabile che rappresenti classi o categorie (come copertura del suolo o presenza o assenza). Specificare le variabili come true se rappresentano classi o categorie, come copertura del suolo o presenza o assenza, e false se la variabile è continua.

Numero di alberi


Il numero di alberi da creare nel modello. Un numero maggiore di alberi genererà solitamente una previsione di modello più precisa, ma il calcolo del modello impiegherà più tempo. Il numero predefinito di alberi è 100.

Dimensione minima foglia


Il numero minimo di osservazioni richiesto per tenere una foglia (ovvero il nodo terminale su un albero senza ulteriori divisioni). Il minimo predefinito per la regressione è 5 e quello predefinito per la classificazione è 1. Per dati molto estesi, aumentando questi numeri si diminuirà il tempo di avvio dello strumento.

Profondità massima albero


Il numero massimo di divisioni che si eseguirà sotto a un albero. Usando una profondità massima elevata, si creeranno più divisioni, il che potrebbe aumentare le possibilità di adattamento eccessivo del modello. Il valore predefinito si basa sui dati e dipende dal numero di alberi creato e dal numero di variabili incluse.

Dati disponibili per albero (%)


Specifica la percentuale di feature nel layer di addestramento usate per ciascun albero decisionale. Il valore predefinito è il 100% dei dati. Per ciascun albero si prendono dei campioni in modo causale a partire dai due terzi dei dati specificati.

Ogni albero decisionale nella foresta viene creato usando un campione o sottoinsieme casuale (circa i due terzi) dei dati di addestramento disponibili. Quanto minore la percentuale dei dati di input per ciascun albero decisionale, tanto maggiore la velocità dello strumento per dataset molto grandi.

Numero di variabili campionate in modo casuale


Specifica il numero di variabili esplicative usate per creare ciascun albero decisionale.

Ognuno degli alberi decisionali nella foresta viene creato usando un sottoinsieme casuale delle variabili esplicative specificate. Quanto maggiore è il numero di variabili usato in ciascun albero decisionale, tanto maggiori le possibilità di adattamento eccessivo del modello, soprattutto se c'è una o un paio di variabili dominanti. Una prassi comune consiste nell'usare la radice quadrata del numero totale di variabili esplicative se la variabile da prevedere è numerica o nel dividere il numero totale di variabili esplicative per 3 se la variabile da prevedere è categorica.

Scegliere come abbinare i campi esplicativi


Come saranno abbinate le variabili corrispondenti nel layer di addestramento con le variabili del layer delle previsioni. Solo le variabili usate nell'addestramento saranno incluse nella tabella.

Numero di avvii per la validazione


Specifica la percentuale (tra lo 0% e il 50%) di feature nel layer di addestramento da riservare come dataset di prova per la validazione. Il modello sarà addestrato senza questo sottoinsieme casuale di dati e i valori osservati per quelle feature saranno paragonati al valore previsto. Il valore predefinito è il 10%.

Nome del layer dei risultati


Questo è il nome del layer che verrà creato in I miei contenuti e aggiunto alla mappa. Il nome predefinito è basato sul nome dello strumento e sul nome del layer di input. Se il layer esiste già, verrà chiesto di fornire un altro nome.

I risultati restituiti dipenderanno dal tipo di analisi. Se si sta eseguendo l'addestramento per valutare l'adattamento del modello, i risultati conterranno un layer dell'adattamento dei dati di addestramento al modello e informazioni di valutazione sull'adattamento del modello. Se si sta eseguendo l'addestramento e le previsioni, i risultati conterranno un layer dell'adattamento dei dati di addestramento al modello, un layer con i risultati previsti e informazioni di valutazione sull'adattamento del modello.

Utilizzare la casella a discesa Salva risultato in per specificare il nome di una cartella di I miei contenuti in cui salvare il risultato.