Klasyfikacja i regresja oparta na zespołach drzew decyzyjnych

Diagram procedury wykonywania zadań związanej z klasyfikacją i regresją opartą na zespołach drzew decyzyjnych


Tworzy modele i generuje prognozy z użyciem dostosowanego algorytmu losowych zespołów drzew decyzyjnych (lasów) — opracowanego przez Leo Breimana — będącego przykładem metody nadzorowanego samouczenia się maszyn. Prognozowanie może dotyczyć zarówno zmiennych jakościowych (klasyfikacja), jak i ciągłych (regresja). Zmienne objaśniające to pola w tabeli atrybutów obiektów treningowych. Narzędzie można uruchomić w celu wygenerowania modelu służącego do oceny wydajności lub w celu wygenerowania modelu i prognozowania wyników w innych zestawach danych.

Rodzaj analizy


Określa tryb działania narzędzia. Narzędzie można uruchomić wyłącznie w celu wytrenowania modelu służącego do oceny wydajności lub w celu wytrenowania modelu i prognozowania obiektów. Istnieją następujące typy prognozowania:

  • Trenowanie modelu do oceny wydajności modelu — trenowanie modelu i dopasowywanie go do danych wejściowych. Ta opcja służy do oceny dokładności modelu przed wygenerowaniem prognoz dotyczących nowego zestawu danych. Danymi wynikowymi w przypadku tej opcji są usługa obiektowa z dopasowanymi danymi treningowymi, diagnostyka modelu oraz opcjonalna tabela istotności zmiennych.
  • Trenowanie modelu i prognozowanie wartości — generowanie prognoz lub klasyfikacji dla obiektów. Zmienne objaśniające należy podać zarówno dla obiektów treningowych, jak i obiektów do prognozowania. Danymi wynikowymi w przypadku tej opcji są usługa obiektowa z wartościami prognozowanymi, diagnostyka modelu oraz opcjonalna tabela istotności zmiennych.

Trenowanie modelu do oceny wydajności modelu


Ten tryb służy do dopasowywania modelu i badania jego dopasowania.

W przypadku tej opcji model jest trenowany z użyciem warstwy wejściowej. Ta opcja służy do oceny dokładności modelu przed wygenerowaniem prognoz dotyczących nowego zestawu danych. Opcja powoduje wygenerowanie diagnostyki modelu w oknie komunikatów i zastosowanie modelu do danych treningowych.

Trenowanie modelu i prognozowanie wartości


Ten tryb umożliwia dopasowanie modelu oraz jego zastosowanie do zestawu danych w celu wygenerowania prognoz.

Prognozy i klasyfikacje generowane są dla obiektów. Danymi wynikowymi w przypadku tej opcji są usługa obiektowa, diagnostyka modelu oraz opcjonalna tabela istotności zmiennych.

Wybierz warstwę treningową


Warstwa obiektowa zawierająca zmienną do prognozowania oraz pola, które będą używane do generowania prognoz.

Oprócz wybrania warstwy z mapy, można wybrać opcję Wybierz warstwę analizy znajdującą się w dolnej części listy rozwijanej, aby przejść do zasobów zestawu danych udostępnionych plików dużych zbiorów danych lub warstwy obiektowej.

Wybierz warstwę, dla której mają być generowane prognozy


Warstwa obiektowa reprezentująca lokalizacje, dla których będą opracowywane prognozy. Ta warstwa obiektowa musi również zawierać wszystkie zmienne objaśniające podane jako pola odpowiadające polom używanym w przypadku obiektów treningowych.

Oprócz wybrania warstwy z mapy, można wybrać opcję Wybierz warstwę analizy znajdującą się w dolnej części listy rozwijanej, aby przejść do zasobów zestawu danych udostępnionych plików dużych zbiorów danych lub warstwy obiektowej.

Wybierz pole do prognozowania


Pole z obiektów treningowych zawierające wartości używane do trenowania modelu. To pole zawiera znane wartości (treningowe) zmiennej, które będą używane do prognozowania w nieznanych lokalizacjach. Jeśli wartości są danymi jakościowymi (np. Klon, Sosna, Dąb), należy zaznaczyć pole wyboru Kategorialne.

Wybierz jedną lub większą liczbę zmiennych objaśniających


Jedno lub większa liczba pól reprezentujących zmienne objaśniające (pola), które ułatwiają prognozowanie wartości lub kategorii zmiennej do prognozowania. Pola wyboru oznaczającego wartości jakościowe (kategorialne) należy używać w przypadku wszystkich zmiennych, które reprezentują klasy lub kategorie (takich jak pokrycie terenu albo obecność lub nieobecność). Należy podać wartość true (prawda) w przypadku wszystkich zmiennych reprezentujących klasy lub kategorie, takich jak pokrycie terenu albo obecność lub nieobecność, a wartość false (fałsz) w przypadku zmiennych ciągłych.

Liczba drzew


Liczba drzew do utworzenia w modelu. Większa liczba drzew skutkuje zazwyczaj modelem pozwalającym na dokładniejsze prognozowanie, ale obliczenie modelu zajmuje więcej czasu. Domyślna liczba drzew wynosi 100.

Minimalny rozmiar liścia


Minimalna liczba obserwacji wymagana do utrzymania liścia (końcowego węzła w drzewie, który nie podlega dalszemu podziałowi). Domyślna wartość minimalna dla regresji to 5, a dla klasyfikacji to 1. W przypadku bardzo dużych ilości danych zwiększenie tych liczb powoduje skrócenie czasu działania narzędzia.

Maksymalna głębokość drzewa


Maksymalna liczba podziałów występujących w drzewie. Użycie dużej maksymalnej głębokości prowadzi do utworzenia większej liczby podziałów i może zwiększyć prawdopodobieństwo nadmiernego dopasowania modelu. Wartość domyślna wynika z danych i jest zależna od liczby utworzonych drzew oraz liczby uwzględnionych zmiennych.

Dane dostępne na drzewo (%)


Określa procent obiektów w warstwie treningowej używanych na potrzeby każdego drzewa decyzyjnego. Wartością domyślną jest 100 procent danych. Próbki dla każdego drzewa są pobierane losowo z dwóch trzecich podanych danych.

Każde drzewo decyzyjne w lesie jest tworzone przy użyciu losowej próbki lub podzbioru (około jednej trzeciej) dostępnych danych treningowych. Użycie mniejszego odsetka danych wejściowych dla każdego drzewa decyzyjnego zwiększa szybkość narzędzia w przypadku bardzo dużych zestawów danych.

Liczba losowo próbkowanych zmiennych


Określa liczbę zmiennych objaśniających używanych do utworzenia każdego drzewa decyzyjnego.

Każde drzewo decyzyjne w lesie jest tworzone przy użyciu podanego losowego podzbioru zmiennych objaśniających. Zwiększenie liczby zmiennych używanych w poszczególnych drzewach decyzyjnych zwiększa prawdopodobieństwo nadmiernego dopasowania modelu szczególnie w sytuacji, gdy istnieje jedna lub kilka zmiennych dominujących. Częstą praktyką jest użycie pierwiastka kwadratowego z łącznej liczby zmiennych objaśniających, gdy zmienna do prognozowania jest liczbowa, lub podzielenie łącznej liczby zmiennych objaśniających przez 3, gdy zmienna do prognozowania zawiera dane jakościowe.

Wybierz sposób dopasowywania pól objaśniających


Sposób, w jaki odpowiednie zmienne w warstwie treningowej są dopasowywane do zmiennych w warstwie prognozowania. W tabeli będą uwzględnione tylko zmienne używane w trakcie treningu.

Liczba wykonań weryfikacji


Określa procent (od 0 do 50) obiektów w warstwie treningowej, które zostaną zarezerwowane jako testowy zestaw danych używanych do weryfikacji. Model zostanie wytrenowany bez tego losowego podzbioru danych, a wartości zaobserwowane w przypadku tych obiektów będą porównywane z wartością prognozowaną. Wartością domyślną jest 10 procent.

Nazwa warstwy wynikowej


Jest to nazwa warstwy, która zostanie utworzona w zakładce Moje zasoby i zostanie dodana do mapy. Nazwa domyślna jest tworzona w oparciu o nazwę narzędzia i nazwę warstwy wejściowej. Jeśli warstwa już istnieje, wyświetlony zostanie komunikat z prośbą o podanie innej nazwy.

Zwracane wyniki zależą od typu analizy. W przypadku treningu w celu oceny dopasowania modelu wyniki będą zawierać warstwę danych treningowych dopasowaną do modelu i informacje o wynikach oceny dopasowania modelu. W przypadku treningu i prognozowania wyniki będą zawierać warstwę danych treningowych dopasowanych do modelu, warstwę prognozowanych wyników oraz informacje o wynikach oceny dopasowania modelu.

Używając listy rozwijanej Zapisz wynik w, można określić nazwę folderu w zakładce Moje zasoby, gdzie zostanie zapisany wynik.