Создает модели и строит прогнозы при помощи адаптации метода контролируемого машинного обучения произвольного леса Лео Бреймана. Прогнозы могут быть выполнены для обеих категориальных перемененных (классификация) и непрерывных переменных (регрессия). Описательные переменные - это поля в атрибутивной таблице обучающих объектов. Инструмент может быть запущен для обучения модели только для оценки производительности, прогнозирования объектов или создания поверхности прогнозирования.
Задает режим выполнения инструмента. Инструмент может быть запущен для обучения модели только для оценки производительности, или для обучения модели и прогнозирования объектов. Имеются следующие типы прогнозирования:
Используйте этот режим, если вы хотите подогнать модель и изучить ее пригодность.
При этом модуль будет обучаться с помощью входного слоя. Используйте эту опцию для оценки точности модели перед созданием прогнозов в новом наборе данных. Эта опция создаст выходную диагностику модели в окне сообщений и применит модель к обучающим данным.
Используйте этот режим, если вы хотите подогнать модель и применить модель к набору данных для создания прогнозов.
Для объектов будут созданы прогнозы или классификация. Выходными данными этой опции будет сервис объектов, диагностика модели и дополнительная таблица значимости переменных.
Векторный слой, содержащий прогнозируемую переменную и поля, которые используются для генерации прогноза.
Кроме выбора слоя из вашей карты, можно щелкнуть Выбрать слой анализа в нижней части ниспадающего списка, чтобы найти свои ресурсы для набора данных или векторного слоя файлового хранилища больших данных.
Векторный слой, представляющий местоположения, где будет выполняться прогнозирование. Этот векторный слой также должен содержать любые независимые переменные, представленные в виде полей, которые соответствуют используемым в обучающих объектах.
Кроме выбора слоя из вашей карты, можно щелкнуть Выбрать слой анализа в нижней части ниспадающего списка, чтобы найти свои ресурсы для набора данных или векторного слоя файлового хранилища больших данных.
Поле из обучающих объектов, содержащее значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях. Если значения категорийные (например, Maple, Pine, Oak) отметьте поле Категорийные.
Одно или несколько полей, представляющих описательные переменные (поля), которые помогут прогнозировать значения или категории переменных для прогнозирования. Используйте отметку Категорийные для любых переменных, которые представляют классы или категории (например, почвенно-растительный покров – его наличие или отсутствие). Задайте для переменной true, для всего, что представляет классы или категории, например, наличие или отсутствие почвенно-растительного покрова, и false, если переменная является непрерывной.
Число деревьев для создания модели. Увеличение числа деревьев приведет к более точному прогнозированию модели, но модель будет дольше вычисляться. По умолчанию число деревьев равно 100.
Минимальное число наблюдений, необходимых для сохранения листа (т.е. конечного объекта на дереве, без дальнейшего разбиения). Минимум по умолчанию для регрессии составляет 5, а для классификации – 1. Для очень больших данных увеличение этого числа увеличит время работы инструмента.
Максимальное число разбиений, которые будут сделаны вниз по дереву . При большей максимальной глубине будет создано больше разбиений, что может увеличить вероятность чрезмерной подгонки модели. Значение по умолчанию управляется данными и зависит от числа созданных деревьев и количества включенных переменных.
Задает процент объектов в обучающем слое, используемых для каждого дерева решений. По умолчанию это 100 процентов от данных. Выборка для каждого дерева берется произвольно из двух третей указанных данных.
Каждое дерево решений в лесу создается с с использованием случайной выборки или поднабора (примерно две трети) доступных обучающих данных. Понижение процента входных данных для каждого дерева решений увеличит скорость инструмента при работе с очень большими наборами данных.
Задает число независимых переменных, используемых для создания каждого дерева решений.
Каждое из деревьев решений в лесу создается с использованием случайного поднабора заданных независимых переменных. Увеличение числа переменных, используемых для создания каждого дерева решений, увеличит вероятность чрезмерной подгонки модели, особенно, если имеется одна или две доминирующие переменные. Обычно используется квадратный корень от общего числа описательных переменных, если переменная для прогнозирования является числовой, или разделите общее число описательных переменных на 3, если переменная для прогнозирования является категорийной.
Способ сопоставления соответствующих переменных в слое обучения переменным в прогнозируемом слое. В таблицу будут включены только переменные, использованные в обучении.
Задает процент (от 0 до 50) объектов в слое обучения для резервирования в качестве тестового набора данных для проверки. Обучение модели будет происходить без этого произвольного поднабора данных, и значения наблюдений для этих объектов будут сравниваться с прогнозируемым значением. Значение по умолчанию – 10 процентов.
Это имя слоя, который будет создан в разделе Мои ресурсы и добавлен на карту. Имя слоя по умолчанию зависит от имени инструмента и имени входного слоя. Если имя слоя уже используется, появится запрос ввести новое имя.
Возвращаемые результаты зависят от типа анализа. Если вы проводите обучение, чтобы изучить подгонку модели, результаты будут содержать слой обучающих данных, подогнанный к модели, и информацию о результатах подгонки. Если вы проводите обучение и прогнозирование, результаты будут содержать слой обучающих данных, подогнанный к модели, слой прогнозов и информацию о результатах подгонки.
С помощью ниспадающего списка поля Сохранить результат в вы можете задать имя папки в разделе Мои ресурсы, в которую будет записан результат.