Clasificación y regresión basadas en bosque

Diagrama del flujo de trabajo de Clasificación y regresión basadas en bosque


Crea modelos y genera predicciones mediante una adaptación del algoritmo de bosque aleatorio de Leo Breiman, que es un método de aprendizaje de máquina supervisado. Es posible realizar predicciones para ambas variables de categorías (clasificación) y variables continuas (regresión). Las variables explicativas son campos de la tabla de atributos de las entidades de entrenamiento. La herramienta puede ejecutarse para generar un modelo para evaluar rendimientos, o para generar un modelo y predecir resultados en otros datasets.

Tipo de análisis


Especifica el modo de funcionamiento de la herramienta. La herramienta puede ejecutarse para entrenar un modelo solo para evaluar rendimientos, o para entrenar un modelo y predecir entidades. Los tipos de predicción son los siguientes:

  • Entrenar un modelo para evaluar el rendimiento del modelo: el modelo se entrenará y ajustará a los datos de entrada. Utilice esta opción para evaluar la precisión de su modelo antes de generar las predicciones en un dataset nuevo. La salida de esta opción será un servicio de entidades con sus datos de entrenamiento ajustados, diagnósticos de modelo y una tabla opcional de importancia variable.
  • Entrenar un modelo y predecir valores: se generarán predicciones o clasificaciones para las entidades. Se deben proporcionar variables explicativas tanto para las entidades de entrenamiento como para las entidades que se desea predecir. La salida de esta opción será un servicio de entidades con sus valores predichos, diagnósticos de modelo y una tabla opcional de importancia variable.

Entrenar un modelo para evaluar el rendimiento del modelo


Utilice este modelo si desea ajustar un modelo e investigue el ajuste.

Con esta elección, el modelo se entrenará con una capa de entrada. Utilice esta opción para evaluar la precisión de su modelo antes de generar las predicciones en un dataset nuevo. Esta opción generará diagnósticos de modelo de salida en la ventana de mensajes y aplicará el modelo a sus datos de entrenamiento.

Entrenar un modelo y predecir valores


Utilice este modelo si desea ajustar un modelo y aplique el modelo al dataset para generar predicciones.

Se generarán predicciones o clasificaciones para las entidades. La salida de esta opción será un servicio de entidades, diagnósticos de modelo y una tabla opcional de importancia variable.

Elegir una capa de entrenamiento


La capa de entidades que contiene la variable que se va a predecir y los campos que se utilizarán para generar la predicción.

Además de elegir una capa en el mapa, puede elegir Elegir capa de análisis en la parte inferior de la lista desplegable para examinar el contenido del dataset o la capa de entidades de un recurso compartido de archivos de big data.

Elegir una capa para la que predecir valores


Una capa de entidades que representa las ubicaciones en las que se realizarán predicciones. Esta capa de entidades también debe contener las variables explicativas proporcionadas como campos que se correspondan con las utilizadas de las entidades de entrenamiento.

Además de elegir una capa en el mapa, puede elegir Elegir capa de análisis en la parte inferior de la lista desplegable para examinar el contenido del dataset o la capa de entidades de un recurso compartido de archivos de big data.

Elegir el campo que se va a predecir


El campo de las entidades de entrenamiento que contiene los valores que se desean usar para entrenar el modelo. Este campo contiene valores (de entrenamiento) conocidos de la variable que se usará para predecir en ubicaciones desconocidas. Si los valores son de categorías (por ejemplo, Arce, Pino, Roble), seleccione la casilla de verificación De categorías.

Elegir una o más variables explicativas


Uno o varios campos que representan a las variables explicativas (campos) que ayudan a predecir el valor o la categoría de la variable que se va a predecir. Use la casilla de verificación de categorías en el caso de las variables que representen clases o categorías (tales como cobertura de suelo, presencia o ausencia). Especifique la variable como True para cualquiera que represente clases o categorías tales como cobertura de suelo, presencia o ausencia, y False si la variable es continua.

Número de árboles


La cantidad de árboles que se crearán en el modelo. Un mayor número de árboles por lo general dará lugar a una predicción de modelo más precisa, pero el modelo tardará más en calcularse. El número predeterminado de árboles es de 100.

Tamaño mínimo de hoja


El número mínimo de observaciones requeridas para conservar una hoja (es decir, el nodo terminal de un árbol que no tiene más divisiones). El mínimo predeterminado para regresión es 5 y el mínimo predeterminado para clasificación es 1. En el caso de datos muy grandes, si aumenta estos números se reducirá el tiempo de ejecución de la herramienta.

Profundidad máxima de árbol


El número máximo de divisiones que se realizarán en un árbol. Si se utiliza una profundidad máxima grande, se podrán crear más divisiones, lo cual puede aumentar las probabilidades de exceso de ajuste en el modelo. El valor predeterminado se basa en datos y depende del número de árboles creados y el número de variables incluidas.

Datos disponibles por árbol (%)


Especifica el porcentaje de las entidades de la capa de entrenamiento utilizadas para cada árbol de decisión. El valor predeterminado es del 100 por cien de los datos. Las muestras de cada árbol se toman aleatoriamente a partir de dos tercios de los datos especificados.

Cada árbol de decisión del bosque se crea con una muestra o un subconjunto aleatorios (aproximadamente dos tercios) de los datos de entrenamiento disponibles. Si utiliza un porcentaje menor de los datos de entrada para cada árbol de decisión, se aumenta la velocidad de la herramienta si los datasets son muy grandes.

Número de variables muestreadas aleatoriamente


Especifica el número de variables explicativas utilizadas para crear cada árbol de decisión.

Cada árbol de decisión del bosque se crea con un subconjunto aleatorio de las variables explicativas especificadas. Al aumentar el número de variables utilizadas en cada árbol de decisión, aumentarán también las probabilidades de exceso de ajuste en el modelo, especialmente si existen una o varias variables dominantes. Una práctica habitual consiste en utilizar la raíz cuadrada del número total de variables explicativas si la variable que va a predecir es numérica, o bien en dividir el número total de variables explicativas entre 3 si la variable que va a predecir es de categorías.

Elegir la forma de concordar campos explicativos


El modo en que las variables correspondientes de la capa de entrenamiento concordarán con las variables de la capa de predicción. Solamente se incluirán en la tabla las variables utilizadas en el entrenamiento.

Número de ciclos de validación


Especifica el porcentaje (entre el 0 y el 50 por ciento) de las entidades de la capa de entrenamiento que se deben reservar como el dataset de prueba para la validación. El modelo se entrenará sin este subconjunto aleatorio de datos, y los valores observados para esas entidades se compararán con el valor predicho. El valor predeterminado es del 10 por ciento.

Nombre de capa de resultados


Este es el nombre de la capa que se creará en Mi contenido y se agregará al mapa. El nombre predeterminado se basa en el nombre de la herramienta y el nombre de la capa de entrada. Si la capa ya existe, se le pedirá que indique otro nombre.

Los resultados devueltos dependerán del tipo de análisis. Si está entrenando para evaluar el ajuste del modelo, los resultados contendrán una capa del ajuste de los datos de entrenamiento al modelo e información de resultado que evalúa el ajuste del modelo. Si está entrenando y prediciendo, los resultados contendrán una capa del ajuste de los datos de entrenamiento al modelo, una capa de los resultados predichos e información de resultado que evalúa el ajuste del modelo.

En el cuadro desplegable Guardar el resultado en, puede especificar el nombre de una carpeta de Mi contenido en la que se guardará el resultado.