Régression et classification basées sur une forêt

Crée des modèles et génère des prévisions à l’aide d’une adaptation de l’algorithme de forêt aléatoire développé par Leo Breiman ; celle-ci est une méthode d’apprentissage automatique supervisée. Les prévisions sont réalisables pour les variables catégorielles (classification) et les variables continues (régression). Les variables explicatives sont des champs de la table attributaire des entités d’entraînement. L’outil peut être exécuté pour générer un modèle visant à évaluer les performances ou pour générer un modèle et prévoir les résultats d’autres jeux de données.

Type d'analyse

Spécifie le mode opératoire de l’outil. L’outil peut être exécuté pour entraîner un modèle à la seule fin d’évaluer ses performances ou pour entraîner un modèle et prévoir les entités. Les types de prévision sont les suivantes :

Train a model to assess model performance (Entraîner un modèle pour évaluer les performances du modèle) : un modèle est entraîné et ajusté aux données en entrée. Utilisez cette option pour évaluer l’exactitude de votre modèle avant de générer des prévisions pour un nouveau jeu de données. La sortie de cette option prendra la forme d’un service d’entités de vos données d’entraînement ajustées, des diagnostics relatifs au modèle et d’une table facultative de l’importance des variables.
Train a model and predict values (Entraîner un modèle et prévoir les valeurs) : les prévisions ou les classifications seront générées pour les entités. Des variables explicatives doivent être fournies pour les entités d’entraînement et les entités à prévoir. La sortie de cette option prendra la forme d’un service d’entités de vos données prévues, des diagnostics relatifs au modèle et d’une table facultative de l’importance des variables.

Entraîner un modèle pour évaluer les performances du modèle

Utilisez ce mode si vous voulez ajuster un modèle et étudier l’ajustement.

Avec ce choix, le modèle sera entraîné à l’aide d’une couche en entrée. Utilisez cette option pour évaluer l’exactitude de votre modèle avant de générer des prévisions pour un nouveau jeu de données. Cette option génère des diagnostics relatifs au modèle dans la fenêtre de messages et applique le modèle à vos données d’entraînement.

Entraîner un modèle et prévoir les valeurs

Utilisez ce mode si vous voulez ajuster un modèle et appliquer le modèle au jeu de données pour générer des prévisions.

Les prévisions ou les classifications seront générées pour les entités. La sortie de cette option prendra la forme d’un service d’entités, de diagnostics relatifs au modèle et d’une table facultative de l’importance des variables.

Choisir la couche d’entraînement

Couche d’entités contenant la variable à prévoir et les champs à utiliser pour générer la prévision.

Outre le fait de choisir une couche de votre carte, vous pouvez sélectionner Choose Analysis Layer (Choisir une couche d’analyse) au bas de la liste déroulante pour parcourir votre contenu et rechercher une couche d’entités ou un jeu de données de partage de fichiers Big Data.

Choisir une couche pour prévoir les valeurs pour

Couche d’entités représentant les emplacements où se produisent les prévisions. Cette couche d’entités doit également contenir les variables explicatives fournies sous forme de champs correspondant à ceux qui sont utilisés pour les entités d’entraînement.

Choisir le champ à prévoir

Champ issu des entités d’entraînement contenant les valeurs à utiliser pour entraîner le modèle. Ce champ contient les valeurs (d’entraînement) connues de la variable à utiliser pour prévoir les emplacements inconnus. Si les valeurs sont catégorielles (érable, pin, chêne, par exemple), sélectionnez la case Categorical (Catégorielle).

Choisir une ou plusieurs variables explicatives

Un ou plusieurs champs représentant les variables explicatives (champs) qui aident à prévoir la valeur ou la catégorie de la variable à prévoir. Utilisez la case à cocher catégorielle pour toute variable qui représente les classes ou les catégories (l’occupation du sol, la présence, l’absence, etc.). Indiquez que la variable est vraie pour toute variable représentant des classes ou des catégories telles que l’occupation du sol, la présence ou l’absence, si la variable est continue.

Nombre d’arbres

Nombre d’arbres à créer dans le modèle. Un grand nombre d’arbres produit habituellement des résultats plus précis, mais le calcul du modèle prend davantage de temps. Le nombre d’arbres par défaut est défini sur 100.

Taille de feuille minimale

Nombre minimal d’observations requises pour conserver une feuille (en d’autres termes, le nœud ultime d’un arbre sans fractionnements supplémentaires). La valeur minimale par défaut est de 5 pour la régression et de 1 pour la classification. Pour les jeux de données très volumineux, l’augmentation de ces nombres aura pour effet de réduire le temps d’exécution de l’outil.

Profondeur d'arbre maximum

Nombre maximum de fractionnements pouvant être effectués pour un arbre. Si la profondeur maximum est élevée, le nombre de fractionnements créés augmente, ce qui accroît les risques de sur-ajustement du modèle. La valeur par défaut est dynamique et dépend du nombre d’arbres créés et du nombre de variables incluse.

Données disponibles par arbre (%)

Détermine le pourcentage d’entités dans la couche d’entraînement utilisées pour chaque arbre décisionnel. La valeur par défaut est 100 pour cent des données. Les échantillons de chaque arbre sont sélectionnés de manière aléatoire dans les deux tiers des données spécifiées.

Chaque arbre décisionnel de la forêt est créé à partir d’un échantillon aléatoire ou d’un sous-ensemble (équivalant approximativement aux deux tiers) des données d’entraînement disponibles. Si un pourcentage plus faible de données est utilisé en entrée pour chaque arbre décisionnel, l’outil s’exécute plus rapidement sur les jeux de données très volumineux.

Nombre de variables échantillonnées de manière aléatoire

Indique le nombre de variables explicatives utilisées pour créer chaque arbre décisionnel.

Chaque arbre décisionnel dans la forêt est créé à l’aide d’un sous-ensemble aléatoire des variables explicatives spécifiées. Une augmentation du nombre de variables utilisées dans chaque arbre décisionnel accroît les risques de sur-ajustement de votre modèle, notamment s’il comporte au moins une variable dominante. Il est courant d’utiliser la racine carrée du nombre total de variables explicatives si la variable à prévoir est numérique, ou de diviser le nombre de total de variables explicatives par 3 si la valeur à prévoir est catégorielle.

Choisir l’appariement des champs explicatifs

Façon dont les variables correspondantes dans la couche d’entraînement seront appariées aux variables dans la couche de prévision. Seules les variables utilisées pendant l’entraînement seront incluses dans la table.

Nombre de cycles de validation

Indique le pourcentage (entre 0 pour cent et 50 pour cent) des entités figurant dans la couche d’entraînement à réserver comme jeu de données de test pour la validation. Le modèle est préparé (entraîné) sans ce sous-ensemble aléatoire de données, et les valeurs observées pour ces entités sont comparées aux valeurs prévues. La valeur par défaut est 10 pour cent.

Nom de la couche de résultat

Il s'agit du nom de la couche qui sera créée dans la page Mon contenu et ajoutée à la carte. Le nom par défaut repose sur le nom de l'outil et sur le nom de la couche en entrée. Si la couche existe déjà, vous êtes invité à fournir un autre nom.

Les résultats renvoyés dépendront du type d’analyse. Si vous entraînez les données pour évaluer l’ajustement du modèle, les résultats contiendront une couche des données d’entraînement ajustées au modèle et des informations relatives à l’ajustement du modèle. Si vous utilisé l’entraînement et la prévision, les résultats contiendront une couche des données d’entraînement ajustées au modèle, une couche des résultats prévus et des informations relatives à l’ajustement du modèle.

La zone de liste déroulante Enregistrer le résultat dans vous permet de spécifier le nom d'un dossier dans Mon contenu où le résultat sera enregistré.