Classificação e Regressão baseada em Floresta

Diagrama do fluxo de trabalho Classificação e Regressão baseada em Floresta


Cria modelos e gera previsões utilizando uma adaptação do algoritmo de floresta aleatória de Leo Breiman, um método supervisionado de aprendizado automático. As previsões podem ser realizadas para variáveis categóricas (classificação) e contínuas (regressão). Variáveis explanatórias são campos na tabela de atributos das feições de treinamento. A ferramenta pode ser executada para gerar um modelo para avaliar o desempenho ou gerar um modelo e prever resultados para outros conjuntos de dados.

Tipo de Análise


Especifica o modo de operação da ferramenta. A ferramenta pode ser executada para treinar um modelo para avaliar somente o desempenho ou treinar um modelo e prever feições. Os tipos de previsão são os seguintes:

  • Treinar um modelo para avaliar o desempenho do modelo—Um modelo será treinado, e ajustado para os dados de entrada. Utilize esta opção para avaliar a precisão do seu modelo antes de gerar previsões em um novo conjunto de dados. A saída desta opção será um serviço da feição dos dados de treinamento ajustados, diagnósticos do modelo e uma tabela opcional de importância da variável.
  • Treinar um modelo e prever valores— Previsões ou classificações serão geradas para feições. Variáveis explanatórias devem ser fornecidas para as feições de treinamento e as feições a serem previstas. A saída desta opção será um serviço da feição dos valores previstos, diagnósticos do modelo e uma tabela opcional de importância da variável.

Testar um modelo para avaliar o desempenho do modelo


Utilize este modo se você deseja ajustar um modelo e investigar o ajuste.

Com este modelo de opção será treinado utilizando uma camada de entrada. Utilize esta opção para avaliar a precisão do seu modelo antes de gerar previsões em um novo conjunto de dados. Esta opção produzirá diagnósticos do modelo na janela de mensagens e aplicará o modelo aos seus dados de treinamento.

Testar um modelo e prever valores


Utilize este modo se você deseja ajustar um modelo e aplicar o modelo ao conjunto de dados para gerar previsões.

Previsões ou classificações serão geradas para feições. A saída desta opção será um serviço da feição, diagnóstico de modelo e uma tabela opcional de importância da variável.

Escolher camada de treinamento


A camada de feição que contém a variável para prever e os campos que serão utilizados para gerar a previsão.

Além de escolher uma camada do seu mapa, você pode selecionar Escolher Camada de Análise na parte inferior da lista suspensa para procurar por seu conteúdo para um conjunto de dados de compartilhamento do arquivo de grandes dados ou camada de feição.

Escolha uma camada para prever valores para


Uma camada de feição que representa os locais onde as previsões serão realizadas. Esta camada de feição também deve conter quaisquer variáveis explanatórias fornecidas como campos que correspondem àqueles utilizados em feições de treinamento.

Além de escolher uma camada do seu mapa, você pode selecionar Escolher Camada de Análise na parte inferior da lista suspensa para procurar por seu conteúdo para um conjunto de dados de compartilhamento do arquivo de grandes dados ou camada de feição.

Escolha o campo para prever


O campo das feições de treinamento contendo os valores a serem utilizados para treinar o modelo. Este campo contém valores conhecidos (treinamento) da variável que será utilizada para prever em locais desconhecidos. Se os valores forem categóricos (por exemplo, Maple, Pine, Oak), marque a caixa de seleção Categórico .

Escolher uma ou mais variáveis explanatórias


Um ou mais campos representando as variáveis explanatórias (campos) que ajudam a prever o valor ou categoria da variável a ser prevista. Utilize a caixa de seleção categórica para quaisquer variáveis que representem classes ou categorias (como cobertura do solo ou presença ou ausência). Especifique a variável como verdadeira para qualquer um que represente classes ou categorias, como cobertura do solo ou presença ou ausência e falso se a variável for contínua.

Número de árvores


O número de árvores a serem criadas no modelo. Mais árvores geralmente resultarão em uma previsão de modelo mais precisa, mas o modelo levará mais tempo para ser calculado. O número padrão de árvores é 100.

Tamanho mínimo da folha


O número mínimo de observações necessárias para manter uma folha (ou seja, o nó terminal em uma árvore sem mais divisões). O mínimo padrão para regressão é 5 e o padrão para classificação é 1. Para dados muito grandes, aumentar estes números diminuirá o tempo de execução da ferramenta.

Comprimento máximo da árvore


O número máximo de divisões que serão feitas em uma árvore. Utilizando uma grande profundidade máxima, mais divisões serão criadas, o que pode aumentar as chances de ajuste extra do modelo. O padrão é baseado em dados e depende do número de árvores criadas e do número de variáveis incluídas.

Dados disponíveis por árvore (%)


Especifica a porcentagem de feições na camada de treinamento utilizada para cada árvore de decisão. O padrão é 100% dos dados. As amostras de cada árvore são tiradas aleatoriamente de dois terços dos dados especificados.

Cada árvore de decisão na floresta é criada utilizando uma amostra aleatória ou subconjunto (aproximadamente dois terços) dos dados de treinamento disponíveis. Utilizar uma porcentagem menor dos dados de entrada para cada árvore de decisão aumenta a velocidade da ferramenta para conjuntos de dados muito grandes.

Número de variáveis amostradas aleatoriamente


Especifica o número de variáveis explanatórias utilizadas para criar cada árvore de decisão.

Cada uma das árvores de decisão na floresta é criada utilizando um subconjunto aleatório das variáveis explanatórias especificadas. Aumentar o número de variáveis utilizadas em cada árvore de decisão aumentará as chances de ajuste extra do seu modelo, especialmente se houver uma ou duas variáveis dominantes. Uma prática comum é utilizar a raiz quadrada do número total de variáveis explanatórias se a sua variável a ser prevista for numérica ou dividir o número total de variáveis explanatórias por 3 se a variável a ser prevista for categórica.

Escolha como os campos explanatórios são correspondidos


Como as variáveis correspondentes na camada de treinamento corresponderão às variáveis na camada de previsão. Somente as variáveis utilizadas no treinamento serão incluídas na tabela.

Número de execuções para validação


Especifica a porcentagem (entre 0% e 50%) de feições na camada de treinamento a ser reservada como o conjunto de dados de teste para validação. O modelo será treinado sem este subconjunto aleatório de dados, e os valores observados para estas feições serão comparados com o valor previsto. O padrão é 10 porcento.

Nome da camada resultante


Este é o nome da camada que será criada em Meu Conteúdo e adicionada no mapa. O nome padrão é baseado no nome da ferramenta e o nome da camada de entrada. Se a camada já existir, você será solicitado para fornecer outro nome.

Os resultados retornados dependerão do tipo de análise. Se você estiver treinando para avaliar o ajuste do modelo, os resultados conterão uma camada de dados de treinamento adequados ao modelo e informações de resultado que avaliam o ajuste do modelo. Se você estiver treinando e prevendo, os resultados conterão uma camada dos dados de treinamento ajustados ao modelo, uma camada de resultados previstos e informações de resultado que avaliam o ajuste do modelo.

Ao utilizar a caixa suspensa Salvar resultado em, é possível especificar o nome de uma pasta em Meu Conteúdo onde o resultado será salvo.