Classificação e Regressão Baseadas na Floresta

Diagrama do fluxo de trabalho Classificação e Regressão Baseadas na Floresta


Cria modelos e gera previsões utilizando uma adaptação do algoritmo floresta aleatória de Leo Breiman, que é um método de aprendizagem máquina supervisionado. As previsões podem ser realizadas quer para variáveis categóricas (classificação) quer para variáveis contínuas (regressão). As variáveis explanatórias são campos na tabela de atributos dos elementos de treino. A ferramenta pode ser executada para gerar um modelo para avaliar o desempenho, ou gerar um modelo e prever resultados para outros conjuntos de dados.

Tipo de Análise


Especifica o modo de funcionamento da ferramenta. A ferramenta pode ser executada para treinar um modelo para apenas avaliar o desempenho, ou treinar um modelo e prever para elementos. Os tipos de previsão são os seguintes:

  • Treinar um modelo para avaliar o desempenho do modelo — Será treinado um modelo, e ajustado aos dados de entrada. Utilize esta opção para avaliar a precisão do seu modelo antes de gerar previsões sobre um novo conjunto de dados. O resultado desta opção será um serviço de elementos dos seus dados de treino ajustados, diagnóstico do modelo, e uma tabela opcional de importância variável.
  • Treinar um modelo e prever valores— Serão geradas previsões ou classificações para elementos. Terão de ser fornecidas variáveis explanatórias quer para os elementos de treino quer para os elementos a prever. O resultado desta opção será um serviço de elementos dos seus valores previstos, diagnóstico do modelo, e uma tabela opcional de importância variável.

Treinar um modelo para avaliar o desempenho do modelo


Utilize este modo se pretende ajustar um modelo, e investigar o ajuste.

Com esta escolha, o modelo será treinado, utilizando uma camada de entrada. Utilize esta opção para avaliar a precisão do seu modelo antes de gerar previsões sobre um novo conjunto de dados. Esta opção produzirá diagnósticos do modelo na janela de mensagens e aplicará o modelo aos seus dados de treino.

Treinar um modelo e prever valores


Utilize este modo se pretende ajustar um modelo, e aplique o modelo ao conjunto de dados para gerar previsões.

Serão geradas previsões ou classificações para elementos. O resultado desta opção será um serviço de elementos, diagnóstico do modelo, e uma tabela opcional de importância variável.

Escolher a camada de treino


A camada de elementos que contém a variável para prever e os campos que serão utilizados para gerar a previsão.

Para além de escolher uma camada do seu mapa, pode escolher Escolher Camada de Análise na parte inferior da lista pendente para navegar até aos seus conteúdos de um conjunto de dados de partilha de ficheiros de big data ou camada de elementos.

Escolher uma camada para a qual prever valores


Será criada uma camada de elementos representando as localizações nas quais serão realizadas previsões. Esta camada de elementos deverá também conter quaisquer variáveis explanatórias fornecidas como campos que correspondem aos utilizados dos elementos de treino.

Para além de escolher uma camada do seu mapa, pode escolher Escolher Camada de Análise na parte inferior da lista pendente para navegar até aos seus conteúdos de um conjunto de dados de partilha de ficheiros de big data ou camada de elementos.

Escolher o campo para prever


O campo dos elementos de treino que contém os valores a utilizar para treinar o modelo. Este campo contém valores (treino) conhecidos da variável que será utilizada para prever em locais desconhecidos. Caso os valores sejam categóricos (por exemplo, Ácer, Pinheiro, Carvalho) selecione a caixa Categóricos.

Escolher uma ou mais variáveis explanatórias


Um ou mais campos que representam as variáveis explanatórias (campos) que ajudam a prever o valor ou a categoria da variável a prever. Utilize a caixa categóricos para quaisquer variáveis que representam classes ou categorias (como ocupação do solo ou presença ou ausência). Especifique a variável como true para qualquer uma que represente classes ou categorias como ocupação do solo ou presença ou ausência e false caso a variável seja contínua.

Número de árvores


O número de árvores a criar no modelo. Mais árvores resultarão geralmente numa previsão de modelo mais precisa, mas o modelo tardará mais tempo a calcular. O número predefinido de árvores é de 100.

Tamanho mínimo de folha


O número mínimo de observações necessárias para manter uma folha (isto é o nó terminal numa árvore sem mais divisões). O mínimo predefinido para regressão é 5 e o predefinido para classificação é 1. Para grandes quantidades de dados, o aumento destes números diminuirá o tempo de funcionamento da ferramenta.

Profundidade máxima da árvore


O número máximo de divisões que serão feitas numa árvore. Utilizando uma grande profundidade máxima, serão criadas mais divisões, podendo assim aumentar as chances de um sobreajuste do modelo. A predefinição é impulsionada por dados e depende do número de árvores criadas e do número de variáveis incluídas.

Dados disponíveis por árvore (%)


Especifica a percentagem de funcionalidades na camada de treino utilizada para cada árvore de decisão. A predefinição é de 100 por cento dos dados. As amostras para cada árvore são obtidas de forma aleatória a partir de dois terços dos dados especificados.

Cada árvore de decisão na floresta é criada utilizando uma amostra ou subconjunto aleatórios (aproximadamente dois terços) dos dados de treino disponíveis. Utilizando uma percentagem mais baixa dos dados de entrada para cada árvore de decisão aumenta a velocidade da ferramenta para conjuntos de dados muito grandes.

Número de variáveis aleatoriamente amostradas


Especifica o número de variáveis explanatórias utilizadas para criar cada árvore de decisão.

Cada uma das árvores de decisão na floresta é criada utilizando um subconjunto aleatório das variáveis explanatórias especificadas. Aumentando o número de variáveis utilizadas em cada árvore de decisão aumentará as chances de sobreajuste do seu modelo particularmente caso exista uma ou mais variáveis dominantes. A prática comum consiste em utilizar a raiz quadrada do número total de variáveis explanatórias caso a sua variável para previsão seja numérica ou para a divisão do número total de variáveis explanatórias por 3 caso a variável para prever seja categórica.

Escolher de que forma os campos explanatórios são correspondidos


De que forma as variáveis correspondentes na camada de treino irão corresponder às variáveis na camada de previsão. Apenas as variáveis utilizadas no treino serão incluídas na tabela.

Número de execuções para validação


Especifica a percentagem (entre 0 e 50 por cento) de funções na camada de treino para reservar como o conjunto de dados de teste para validação. O modelo será treinado sem este subconjunto aleatório de dados e os valores observador para essas funções serão comparados com o valor previsto. A predefinição é de 10 por cento.

Nome da camada resultante


Este é o nome da camada que será criada em O Meu Conteúdo e adicionada ao mapa. O nome padrão é baseado no nome da ferramenta e do nome da camada de entrada. Se a camada já existir, ser-lhe-á pedido que forneça outro nome.

Os resultados devolvidos dependerão do tipo de análise. Caso esteja a treinar para avaliar o ajuste do modelo, os resultados irão conter uma camada de dados de treino ajustados ao modelo e informações do resultado da avaliação do ajuste do modelo. Caso esteja a treinar e a prever, os resultados irão conter uma camada de dados de treino ajustados ao modelo, uma camada de resultados previstos e informações do resultado da avaliação do encaixe do modelo.

Ao utilizar a caixa suspensa Guardar resultado em pode definir o nome da pasta em O Meu Conteúdo onde o resultado será guardado.