Vytvoří modely a vygeneruje předpovědi pomocí adaptace Briemanova algoritmu náhodného lesa, který je metodou strojového učení s dohledem. Předpovědi lze provést jak pro kategorické proměnné (klasifikace), tak pro souvislé proměnné (regrese). Nezávislé proměnné jsou pole v tabulce atributů cvičných prvků. Nástroj umožňuje generovat model pro posouzení výkonu, nebo generovat model a předpovídat výsledky do jiných datových sad.
Určuje provozní režim nástroje. Nástroj umožňuje učení modelu pouze pro posouzení výkonu, nebo učení modelu a předpovídání prvků. Typy předpovědi jsou následující:
Použijte tento režim, pokud chcete model přizpůsobit a prozkoumat jeho přizpůsobení.
Při této možnosti bude model učen za použití vstupní vrstvy. Použijte tuto možnost k posouzení přesnosti vašeho modelu před generováním předpovědí na nové datové sadě.Výstupem této možnosti bude diagnostika modelu v okně zpráv a použití modelu na vašich cvičných datech.
Použijte tento režim, pokud chcete model přizpůsobit, a použít model na datovou sadu k vygenerování předpovědí.
Předpovědi nebo klasifikace budou pro prvky vygenerovány. Výstupem této možnosti bude feature služba, diagnostika modelu a volitelná tabulka důležitosti proměnných.
Vrstva prvků obsahující proměnnou k předpovědi a pole, která budou použita pro generování předpovědi.
Kromě výběru vrstvy z mapy můžete také zvolit položku Zvolit vrstvu analýzy která se nachází v dolní části rozbalovací nabídky, abyste ve svém obsahu mohli najít vrstvu prvků nebo datovou sadu sdílených souborů velkých dat.
Vrstva prvků představující umístění, ve kterých budou provedeny předpovědi. Tato vrstva prvků musí také obsahovat všechny nezávislé proměnné zadané jako pole odpovídající těm použitým v cvičných datech.
Kromě výběru vrstvy z mapy můžete také zvolit položku Zvolit vrstvu analýzy která se nachází v dolní části rozbalovací nabídky, abyste ve svém obsahu mohli najít vrstvu prvků nebo datovou sadu sdílených souborů velkých dat.
Pole ze cvičných prvků obsahující hodnoty, které mají být použity k učení modelu. Toto pole obsahuje známé (cvičné) hodnoty proměnné, které se použijí k předpovědi v neznámých umístěních. Pokud jsou hodnoty kategorické (například javor, borovice, dub), zaškrtněte pole Kategorický.
Jedno nebo více polí reprezentujících nezávislé proměnné (pole), které pomáhají předpovídat hodnotu či kategorii proměnné k předpovědi. Použijte zaškrtávací pole Kategorický pro jakékoliv proměnné, které reprezentují třídy či kategorie (např. půdní kryt nebo přítomnost či nepřítomnost). Zadejte proměnné jako pravda pro ty, které představují třídy nebo kategorie, jako například půdní kryt nebo nepřítomnost, a nepravda, pokud jsou proměnné souvislé.
Počet stromů vytvořených v modelu. Více stromů bude mít obecně za následek přesnější předpověď modelu, ale výpočet modelu bude déle trvat Výchozí počet stromů je 100.
Minimální počet pozorování požadovaný pro zachování listu (konečný uzel na stromu, který se již dál nedělí). Výchozí minimum pro regresi je 5 a výchozí hodnota pro klasifikaci je 1. U velmi velkých dat zvýšení těchto čísel sníží dobu běhu nástroje.
Maximální počet dělení stromu. Pomocí velké maximální hloubky bude vytvořeno více dělení, což může zvýšit šance na přeplnění modelu. Výchozí hodnota se odvíjí od dat a záleží na počtu vytvořených stromů a počtu zahrnutých proměnných.
Určuje procento prvků ve cvičné vrstvě použitých na každý rozhodovací strom. Výchozí počet dat je 100 %. Ze dvou třetin stanovených dat jsou pro každý strom náhodně odebrány vzorky.
Každý rozhodovací strom v lese je vytvořen pomocí náhodného vzorku nebo podmnožiny (asi dvou třetin) dostupných cvičných dat. Použití nižšího počtu procent vstupních dat pro každý rozhodovací strom zvyšuje rychlost nástroje u velmi velkých datových sad.
Určuje počet nezávislých proměnných použitých k vytvoření každého rozhodovacího stromu.
Každý rozhodovací strom v lese je vytvořen pomocí náhodné podmnožiny stanovených nezávislých proměnných. Zvýšení počtu proměnných použitých na každý rozhodovací strom zvýší šanci na přeplnění vašeho modelu, zejména pokud se zde vyskytuje jedna nebo dvojice dominantních proměnných. Běžnou praxí je použít druhou odmocninu z celkového počtu nezávislých proměnných, pokud vaše proměnná k předpovědi je číslo, nebo vydělit celkový počet nezávislých proměnných třemi, pokud je proměnná k předpovědi kategorická.
Jak budou odpovídající proměnné ve cvičné vrstvě upraveny na proměnné ve vrstvě předpovědi. Pouze proměnné použité při učení budou obsaženy v tabulce.
Určuje procentuální hodnotu (mezi 0 a 50 procenty) prvků ve cvičné vrstvě, které mají být vyhrazeny jako zkušební datová sada pro ověření. Model bude učen bez této náhodné podmnožiny dat a hodnoty pozorované pro tyto prvky budou porovnány s předpovídanými hodnotami. Výchozí hodnota je 10 procent.
Toto je název vrstvy, která se vytvoří ve složce Můj obsah a přidá do mapy. Výchozí název se řídí názvem nástroje a názvem vstupní vrstvy. Pokud výsledná vrstva již existuje, budete požádáni o zadání jiného názvu.
Vrácené výsledky budou záviset na typu analýzy. Pokud učíte model tak, aby vyhovoval vstupním datům, budou výsledky obsahovat vrstvu cvičných dat přizpůsobených modelu a informace o výsledku posouzení vyhovění modelu.Pokud učíte model a provádíte předpovědi, výsledky budou obsahovat vrstvu cvičných dat přizpůsobených modelu, vrstvu výsledků předpovědi a informace o výsledku posouzení vyhovění modelu.
V rozbalovacím seznamu Uložit výsledek do můžete zadat název složky ve složce Můj obsah, do které se má výsledek uložit.