Tworzy modele i generuje prognozy z użyciem dostosowanego algorytmu losowych zespołów drzew decyzyjnych (lasów) — opracowanego przez Leo Breimana — będącego przykładem metody nadzorowanego samouczenia się maszyn. Prognozowanie może dotyczyć zarówno zmiennych jakościowych (klasyfikacja), jak i ciągłych (regresja). Zmienne objaśniające to pola w tabeli atrybutów obiektów treningowych. Narzędzie można uruchomić w celu wygenerowania modelu służącego do oceny wydajności lub w celu wygenerowania modelu i prognozowania wyników w innych zestawach danych.
Określa tryb działania narzędzia. Narzędzie można uruchomić wyłącznie w celu wytrenowania modelu służącego do oceny wydajności lub w celu wytrenowania modelu i prognozowania obiektów. Istnieją następujące typy prognozowania:
Ten tryb służy do dopasowywania modelu i badania jego dopasowania.
W przypadku tej opcji model jest trenowany z użyciem warstwy wejściowej. Ta opcja służy do oceny dokładności modelu przed wygenerowaniem prognoz dotyczących nowego zestawu danych. Opcja powoduje wygenerowanie diagnostyki modelu w oknie komunikatów i zastosowanie modelu do danych treningowych.
Ten tryb umożliwia dopasowanie modelu oraz jego zastosowanie do zestawu danych w celu wygenerowania prognoz.
Prognozy i klasyfikacje generowane są dla obiektów. Danymi wynikowymi w przypadku tej opcji są usługa obiektowa, diagnostyka modelu oraz opcjonalna tabela istotności zmiennych.
Warstwa obiektowa zawierająca zmienną do prognozowania oraz pola, które będą używane do generowania prognoz.
Oprócz wybrania warstwy z mapy, można wybrać opcję Wybierz warstwę analizy znajdującą się w dolnej części listy rozwijanej, aby przejść do zasobów zestawu danych udostępnionych plików dużych zbiorów danych lub warstwy obiektowej.
Warstwa obiektowa reprezentująca lokalizacje, dla których będą opracowywane prognozy. Ta warstwa obiektowa musi również zawierać wszystkie zmienne objaśniające podane jako pola odpowiadające polom używanym w przypadku obiektów treningowych.
Oprócz wybrania warstwy z mapy, można wybrać opcję Wybierz warstwę analizy znajdującą się w dolnej części listy rozwijanej, aby przejść do zasobów zestawu danych udostępnionych plików dużych zbiorów danych lub warstwy obiektowej.
Pole z obiektów treningowych zawierające wartości używane do trenowania modelu. To pole zawiera znane wartości (treningowe) zmiennej, które będą używane do prognozowania w nieznanych lokalizacjach. Jeśli wartości są danymi jakościowymi (np. Klon, Sosna, Dąb), należy zaznaczyć pole wyboru Kategorialne.
Jedno lub większa liczba pól reprezentujących zmienne objaśniające (pola), które ułatwiają prognozowanie wartości lub kategorii zmiennej do prognozowania. Pola wyboru oznaczającego wartości jakościowe (kategorialne) należy używać w przypadku wszystkich zmiennych, które reprezentują klasy lub kategorie (takich jak pokrycie terenu albo obecność lub nieobecność). Należy podać wartość true (prawda) w przypadku wszystkich zmiennych reprezentujących klasy lub kategorie, takich jak pokrycie terenu albo obecność lub nieobecność, a wartość false (fałsz) w przypadku zmiennych ciągłych.
Liczba drzew do utworzenia w modelu. Większa liczba drzew skutkuje zazwyczaj modelem pozwalającym na dokładniejsze prognozowanie, ale obliczenie modelu zajmuje więcej czasu. Domyślna liczba drzew wynosi 100.
Minimalna liczba obserwacji wymagana do utrzymania liścia (końcowego węzła w drzewie, który nie podlega dalszemu podziałowi). Domyślna wartość minimalna dla regresji to 5, a dla klasyfikacji to 1. W przypadku bardzo dużych ilości danych zwiększenie tych liczb powoduje skrócenie czasu działania narzędzia.
Maksymalna liczba podziałów występujących w drzewie. Użycie dużej maksymalnej głębokości prowadzi do utworzenia większej liczby podziałów i może zwiększyć prawdopodobieństwo nadmiernego dopasowania modelu. Wartość domyślna wynika z danych i jest zależna od liczby utworzonych drzew oraz liczby uwzględnionych zmiennych.
Określa procent obiektów w warstwie treningowej używanych na potrzeby każdego drzewa decyzyjnego. Wartością domyślną jest 100 procent danych. Próbki dla każdego drzewa są pobierane losowo z dwóch trzecich podanych danych.
Każde drzewo decyzyjne w lesie jest tworzone przy użyciu losowej próbki lub podzbioru (około jednej trzeciej) dostępnych danych treningowych. Użycie mniejszego odsetka danych wejściowych dla każdego drzewa decyzyjnego zwiększa szybkość narzędzia w przypadku bardzo dużych zestawów danych.
Określa liczbę zmiennych objaśniających używanych do utworzenia każdego drzewa decyzyjnego.
Każde drzewo decyzyjne w lesie jest tworzone przy użyciu podanego losowego podzbioru zmiennych objaśniających. Zwiększenie liczby zmiennych używanych w poszczególnych drzewach decyzyjnych zwiększa prawdopodobieństwo nadmiernego dopasowania modelu szczególnie w sytuacji, gdy istnieje jedna lub kilka zmiennych dominujących. Częstą praktyką jest użycie pierwiastka kwadratowego z łącznej liczby zmiennych objaśniających, gdy zmienna do prognozowania jest liczbowa, lub podzielenie łącznej liczby zmiennych objaśniających przez 3, gdy zmienna do prognozowania zawiera dane jakościowe.
Sposób, w jaki odpowiednie zmienne w warstwie treningowej są dopasowywane do zmiennych w warstwie prognozowania. W tabeli będą uwzględnione tylko zmienne używane w trakcie treningu.
Określa procent (od 0 do 50) obiektów w warstwie treningowej, które zostaną zarezerwowane jako testowy zestaw danych używanych do weryfikacji. Model zostanie wytrenowany bez tego losowego podzbioru danych, a wartości zaobserwowane w przypadku tych obiektów będą porównywane z wartością prognozowaną. Wartością domyślną jest 10 procent.
Jest to nazwa warstwy, która zostanie utworzona w zakładce Moje zasoby i zostanie dodana do mapy. Nazwa domyślna jest tworzona w oparciu o nazwę narzędzia i nazwę warstwy wejściowej. Jeśli warstwa już istnieje, wyświetlony zostanie komunikat z prośbą o podanie innej nazwy.
Zwracane wyniki zależą od typu analizy. W przypadku treningu w celu oceny dopasowania modelu wyniki będą zawierać warstwę danych treningowych dopasowaną do modelu i informacje o wynikach oceny dopasowania modelu. W przypadku treningu i prognozowania wyniki będą zawierać warstwę danych treningowych dopasowanych do modelu, warstwę prognozowanych wyników oraz informacje o wynikach oceny dopasowania modelu.
Używając listy rozwijanej Zapisz wynik w, można określić nazwę folderu w zakładce Moje zasoby, gdzie zostanie zapisany wynik.