Классификация на основе леса и регрессия

Схема рабочего процесса инструмента Классификация на основе леса и регрессия


Создает модели и строит прогнозы при помощи адаптации метода контролируемого машинного обучения произвольного леса Лео Бреймана. Прогнозы могут быть выполнены для обеих категориальных перемененных (классификация) и непрерывных переменных (регрессия). Описательные переменные - это поля в атрибутивной таблице обучающих объектов. Инструмент может быть запущен для обучения модели только для оценки производительности, прогнозирования объектов или создания поверхности прогнозирования.

Тип анализа


Задает режим выполнения инструмента. Инструмент может быть запущен для обучения модели только для оценки производительности, или для обучения модели и прогнозирования объектов. Имеются следующие типы прогнозирования:

  • Обучение модели для повышения производительности - модель обучается и подгоняется ко входным данным. Используйте эту опцию для оценки точности модели перед созданием прогнозов в новом наборе данных. Выходными данными этой опции будет сервис объектов подогнанных обучающих данных, диагностика модели и дополнительная таблица значимости переменных.
  • Обучение модели и прогнозирование значений - для объектов будут созданы прогнозы или классификация. Независимые переменные должны быть представлены и для обучающих объектов, и для прогнозируемых объектов. Выходными данными этой опции будет сервис объектов прогнозируемых значений, диагностика модели и дополнительная таблица значимости переменных.

Обучение модели для повышения производительности


Используйте этот режим, если вы хотите подогнать модель и изучить ее пригодность.

При этом модуль будет обучаться с помощью входного слоя. Используйте эту опцию для оценки точности модели перед созданием прогнозов в новом наборе данных. Эта опция создаст выходную диагностику модели в окне сообщений и применит модель к обучающим данным.

Обучение модели и прогнозирование значений


Используйте этот режим, если вы хотите подогнать модель и применить модель к набору данных для создания прогнозов.

Для объектов будут созданы прогнозы или классификация. Выходными данными этой опции будет сервис объектов, диагностика модели и дополнительная таблица значимости переменных.

Выберите слой обучения


Векторный слой, содержащий прогнозируемую переменную и поля, которые используются для генерации прогноза.

Кроме выбора слоя из вашей карты, можно щелкнуть Выбрать слой анализа в нижней части ниспадающего списка, чтобы найти свои ресурсы для набора данных или векторного слоя файлового хранилища больших данных.

Выберите слой для прогноза значений для


Векторный слой, представляющий местоположения, где будет выполняться прогнозирование. Этот векторный слой также должен содержать любые независимые переменные, представленные в виде полей, которые соответствуют используемым в обучающих объектах.

Кроме выбора слоя из вашей карты, можно щелкнуть Выбрать слой анализа в нижней части ниспадающего списка, чтобы найти свои ресурсы для набора данных или векторного слоя файлового хранилища больших данных.

Выберите поле прогнозирования


Поле из обучающих объектов, содержащее значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях. Если значения категорийные (например, Maple, Pine, Oak) отметьте поле Категорийные.

Выберите одну или несколько описательных переменных


Одно или несколько полей, представляющих описательные переменные (поля), которые помогут прогнозировать значения или категории переменных для прогнозирования. Используйте отметку Категорийные для любых переменных, которые представляют классы или категории (например, почвенно-растительный покров – его наличие или отсутствие). Задайте для переменной true, для всего, что представляет классы или категории, например, наличие или отсутствие почвенно-растительного покрова, и false, если переменная является непрерывной.

Число деревьев


Число деревьев для создания модели. Увеличение числа деревьев приведет к более точному прогнозированию модели, но модель будет дольше вычисляться. По умолчанию число деревьев равно 100.

Минимальный размер листа


Минимальное число наблюдений, необходимых для сохранения листа (т.е. конечного объекта на дереве, без дальнейшего разбиения). Минимум по умолчанию для регрессии составляет 5, а для классификации – 1. Для очень больших данных увеличение этого числа увеличит время работы инструмента.

Максимальная глубина дерева


Максимальное число разбиений, которые будут сделаны вниз по дереву . При большей максимальной глубине будет создано больше разбиений, что может увеличить вероятность чрезмерной подгонки модели. Значение по умолчанию управляется данными и зависит от числа созданных деревьев и количества включенных переменных.

Данные, доступные для одного дерева (%)


Задает процент объектов в обучающем слое, используемых для каждого дерева решений. По умолчанию это 100 процентов от данных. Выборка для каждого дерева берется произвольно из двух третей указанных данных.

Каждое дерево решений в лесу создается с с использованием случайной выборки или поднабора (примерно две трети) доступных обучающих данных. Понижение процента входных данных для каждого дерева решений увеличит скорость инструмента при работе с очень большими наборами данных.

Число произвольно выбранных переменных


Задает число независимых переменных, используемых для создания каждого дерева решений.

Каждое из деревьев решений в лесу создается с использованием случайного поднабора заданных независимых переменных. Увеличение числа переменных, используемых для создания каждого дерева решений, увеличит вероятность чрезмерной подгонки модели, особенно, если имеется одна или две доминирующие переменные. Обычно используется квадратный корень от общего числа описательных переменных, если переменная для прогнозирования является числовой, или разделите общее число описательных переменных на 3, если переменная для прогнозирования является категорийной.

Выберите способ сопоставления описательных полей


Способ сопоставления соответствующих переменных в слое обучения переменным в прогнозируемом слое. В таблицу будут включены только переменные, использованные в обучении.

Число запусков для проверки


Задает процент (от 0 до 50) объектов в слое обучения для резервирования в качестве тестового набора данных для проверки. Обучение модели будет происходить без этого произвольного поднабора данных, и значения наблюдений для этих объектов будут сравниваться с прогнозируемым значением. Значение по умолчанию – 10 процентов.

Имя слоя результата


Это имя слоя, который будет создан в разделе Мои ресурсы и добавлен на карту. Имя слоя по умолчанию зависит от имени инструмента и имени входного слоя. Если имя слоя уже используется, появится запрос ввести новое имя.

Возвращаемые результаты зависят от типа анализа. Если вы проводите обучение, чтобы изучить подгонку модели, результаты будут содержать слой обучающих данных, подогнанный к модели, и информацию о результатах подгонки. Если вы проводите обучение и прогнозирование, результаты будут содержать слой обучающих данных, подогнанный к модели, слой прогнозов и информацию о результатах подгонки.

С помощью ниспадающего списка поля Сохранить результат в вы можете задать имя папки в разделе Мои ресурсы, в которую будет записан результат.