Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Определение значимости переменной в методе случайного леса




    Случайные леса позволяют вычислить эвристику для определения «значимости» параметра в предсказании. Если при  перемешивании  значения признака в экзаменационной выборке снижается точность классификации, то признак считается значимым.

Модифицированный алгоритм случайного леса

    Алгоритм является модификацией оригинального алгоритма Random Forest, разработанного Лео Брейманом (Leo Breiman) и Адель Катлер (Adele Cutler). Этот алгоритм сочетает в себе две идеи: использование ансамбля деревьев решений, получающего результат путем голосования, и идею рандомизации процесса обучения.

Шаги алгоритма:

Пусть обучающее множество имеет размер N, а число независимых переменных равно M. Введем дополнительно три параметра: коэффициент r (0 ≤ r ≤ 1), число признаков m ≤ M, число деревьев NTrees ≥ 1.

На основе исходного обучающего множества сгенерируем случайную выборку размером r·N (без повторений). Элементы, не попавшие в выборку, используем в дальнейшем для оценки ошибки обобщения.

На основе сгенерированной выборки построим дерево решений. В ходе построения очередного узла дерева из M имеющихся переменных, на основе которых можно разделить дерево, выберем m случайных. Решение о разбиении принимается на основе лучшего возможного выбора из m случайно выбранных переменных. Дерево строится до исчерпания обучающено множества и не подвергается усечению.

Процедура повторяется NTrees раз. Полученные деревья объединяются в ансамбль, принимающий решение путем голосования.

 

 

Литература

 

1. Harrington P. Machine Learning in Action. Manning. Shelter Island. -- 2012. -- 382 p.

2. Breiman L. Bagging predictors // Machine Learning. -- № 24.--1996. -- P. 123-140.

3. Чистяков С.П. Случайные леса: обзор //  Труды Карельского научного центра РАН. №1. -- 2013. -- С. 117-136.

4. Ансамбли моделей для прогнозирования //[Электронный ресурс]. -- Режим доступа http://arbir.ru/articles/a\_4053.htm -- Дата доступа: 15.04.2016.

5. Деревья решений - общие принципы работы //[Электронный ресурс]. -- Режим доступа http://www.basegroup.ru/library/analysis/tree/description/ -- Дата доступа: 20.03.2015










Последнее изменение этой страницы: 2018-04-12; просмотров: 205.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...