Classificatie en regressie op basis van bossen

Workflowdiagram voor classificatie en regressie op basis van bossen


Creëert modellen en genereert voorspellingen met behulp van een aanpassing van het willekeurigebosalgoritme van Leo Breiman, een gemonitorde machinaal lerenmethode. Voorspellingen kunnen worden uitgevoerd voor zowel categorische variabelen (classificatie) als continue variabelen (regressie). Verklarende variabelen zijn velden in de attributentabel van de trainingsobjecten. De tool kan worden uitgevoerd om een ​​model te genereren om de prestaties te beoordelen, of om een model te genereren en resultaten te voorspellen voor een andere dataset.

Analysetype


Specificeert de bedieningsmodus van de tool. De tool kan worden gebruikt om een ​​model te trainen om alleen de prestaties te beoordelen, of om een ​​model te trainen en objecten te voorspellen. Voorspellingstypes zijn als volgt:

  • Een model trainen om modelprestaties te beoordelen—Er wordt een model getraind en aangepast aan de invoergegevens. Gebruik deze optie om de nauwkeurigheid van uw model te beoordelen voordat u voorspellingen op een nieuwe dataset genereert. De uitvoer van deze optie is een feature service van uw specifieke trainingsgegevens, modeldiagnostiek en een optionele tabel van variabel belang.
  • Een model trainen en waarden voorspellen— Voorspellingen of classificaties worden gegenereerd voor objecten. Er moeten verklarende variabelen beschikbaar zijn voor zowel de trainingsobjecten als de objecten die moeten worden voorspeld. De uitvoer van deze optie is een featureservice van uw voorspelde waarden, modeldiagnostiek en een optionele tabel van variabel belang.

Een model trainen om de prestaties van het model te beoordelen


Gebruik deze modus als u een model wilt passen en de pasvorm wilt onderzoeken.

Met deze keuze wordt het model getraind met behulp van een invoerlaag. Gebruik deze optie om de nauwkeurigheid van uw model te beoordelen voordat u voorspellingen op een nieuwe dataset genereert. Deze optie voert modeldiagnostiek uit in het berichtenvenster en past het model toe op uw trainingsgegevens.

Een model trainen en waarden voorspellen


Gebruik deze modus als u een model wilt passen en pas het model toe op de dataset om voorspellingen te genereren.

Voorspellingen of classificaties worden gegenereerd voor objecten. De uitvoer van deze optie is een featureservice, modeldiagnostiek en een optionele tabel van variabel belang.

Trainingslaag kiezen


De objectlaag met de te voorspellen variabele en de velden die worden gebruikt om de voorspelling te genereren.

Naast het kiezen van een laag van uw kaart, kunt u kiezen voor Analyselaag kiezen onderaan de keuzelijst om in uw inhoud te zoeken naar een big data file share-dataset of objectlaag.

Kies een laag om waarden voor te voorspellen


Een objectlaag met locaties waar voorspellingen worden gedaan. Deze objectlaag moet ook verklarende variabelen bevatten die worden aangeboden als velden die overeenkomen met de variabelen die worden gebruikt in de trainingsobjecten.

Naast het kiezen van een laag van uw kaart, kunt u kiezen voor Analyselaag kiezen onderaan de keuzelijst om in uw inhoud te zoeken naar een big data file share-dataset of objectlaag.

Het veld kiezen om te voorspellen


Het veld van de trainingsobjecten met de waarden die moeten worden gebruikt om het model te trainen. Dit veld bevat bekende (trainings)waarden van de variabele die zal worden gebruikt om op onbekende locaties te voorspellen. Als waarden categorisch zijn (bijvoorbeeld Esdoorn, Den, Eik), schakelt u het selectievakje Categorisch in.

Kies een of meer verklarende variabelen


Een of meer velden die de verklarende variabelen (velden) vertegenwoordigen die helpen de waarde of categorie van de voorspelbare variabele te voorspellen. Gebruik het categorische selectievakje voor alle variabelen die klassen of categorieën vertegenwoordigen (zoals bodembedekking of aanwezigheid of afwezigheid). Specificeer de variabele als “waar” voor alles dat klassen of categorieën vertegenwoordigt zoals bodembedekking of aanwezigheid of afwezigheid en “onwaar” als de variabele continu is.

Aantal bomen


Het aantal bomen dat in het model moet worden gemaakt. Meer bomen zullen over het algemeen resulteren in een meer accurate modelvoorspelling, maar het zal langer duren om het model te berekenen. Het standaard aantal bomen is 100.

Minimale bladgrootte


Het minimale aantal waarnemingen dat vereist is om een ​​blad te behouden (dat is het eindknooppunt in een boom zonder verdere splitsingen). Het standaardminimum voor regressie is 5 en de standaard voor classificatie is 1. Voor zeer grote gegevens zal het verhogen van deze cijfers de looptijd van de tool verminderen.

Maximale boomdiepte


Het maximale aantal splitsingen dat in een boom wordt gemaakt. Als u een grote maximale diepte gebruikt, worden er meer splits gemaakt, waardoor de kans groter wordt dat het model te veel wordt aangepast. De standaardwaarde is gegevensgestuurd en is afhankelijk van het aantal gemaakte bomen en het aantal opgenomen variabelen.

Gegevens beschikbaar per boom (%)


Specificeert het percentage van de objecten in de trainingslaag die voor elke beslissingsboom wordt gebruikt. De standaardinstelling is 100 procent van de gegevens. Voorbeelden voor elke boom worden willekeurig genomen uit twee derde van de opgegeven gegevens.

Elke beslissingsboom in het bos wordt gemaakt met een willekeurige steekproef of subset (ongeveer twee derde) van de beschikbare trainingsgegevens. Het gebruik van een lager percentage van de invoergegevens voor elke beslissingsboom verhoogt de snelheid van de tool voor zeer grote gegevensreeksen.

Aantal willekeurig gesamplede variabelen


Geeft het aantal verklarende variabelen aan die worden gebruikt om elke beslissingsboom te maken.

Elk van de beslissingsbomen in het bos wordt gemaakt met behulp van een willekeurige subset van de opgegeven verklarende variabelen. Het verhogen van het aantal variabelen dat in elke beslissingsboom wordt gebruikt, vergroot de kans dat uw model te veel wordt aangepast, met name als er één of een paar dominante variabelen zijn. Een veel voorkomende praktijk is om de vierkantswortel van het totale aantal verklarende variabelen te gebruiken als de te voorspellen variabele numeriek is of het totale aantal verklarende variabelen door 3 te delen als de te voorspellen variabele categorisch is.

Kies hoe verklarende velden worden vergeleken


Hoe de corresponderende variabelen in de trainingslaag overeenkomen met de variabelen in de voorspellingslaag. Alleen de variabelen die in de training worden gebruikt, worden in de tabel opgenomen.

Aantal runs voor validatie


Specificeert het percentage (tussen 0 procent en 50 procent) van objecten in de trainingslaag dat moet worden gereserveerd als de testdataset voor validatie. Het model zal worden getraind zonder deze willekeurige subset van gegevens, en de waargenomen waarden voor die objecten worden vergeleken met de voorspelde waarde. De standaardwaarde is 10 procent.

Resultaat laagnaam


Dit is de naam van de laag die in Mijn Content wordt gemaakt en aan de kaart wordt toegevoegd. De standaardnaam is gebaseerd op de toolnaam en de naam van de invoerlaag. Als de laag al bestaat, wordt u gevraagd een nieuwe naam te geven.

De geretourneerde resultaten zijn afhankelijk van het type analyse. Als u traint om de pasvorm van het model te beoordelen, bevatten de resultaten een laag trainingsgegevens die bij het model passen en resultaatinformatie die de pasvorm van het model beoordeelt. Als u traint en voorspelt, bevatten de resultaten een laag van de trainingsgegevens die bij het model passen, een laag met voorspelde resultaten en resultaatinformatie die de pasvorm van het model beoordeelt.

Als u in de vervolgkeuzelijst Resultaat opslaan gebruikt, kunt u de naam opgeven van een map in Mijn Content waarin het resultaat wordt opgeslagen.