Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Проверки выбора размера дерева




Рассмотрим  три возможных способа определения, удачно ли выбран размер дерева, три варианта кросс-проверки для построенного дерева классификации.

Кросс-проверка на тестовой выборке

Первый, наиболее предпочтительный вариант кросс-проверки - кросс-проверка на экзаменационной выборке. В этом варианте кросс-проверки дерево классификации строится по обучающей выборке, а его способность к прогнозированию проверяется путем предсказания классовой принадлежности элементов экзаменационной. Если доля неправильно классифицированных наблюдений на экзаменационной выборке окажется больше, чем на обучающей выборке, то это свидетельствует о плохом результате кросс-проверки, и, возможно, в этом случае следует поискать дерево другого размера, которое бы лучше выдерживало кросс-проверку. Экзаменационная и обучающая выборки могут быть образованы из двух независимых наборов данных, или, если в нашем распоряжении имеется большая обучающая выборка, можно случайным образом отобрать часть (например, треть или половину) наблюдений и использовать ее в качестве тестовой выборки.

V-кратная кросс-проверка

Этот вид кросс-проверки разумно использовать в случаях, когда в нашем распоряжении нет отдельной экзаменационной выборки, а обучающее множество слишком мало для того, чтобы из него выделять тестовую выборку. Задаваемое значение V (как правило равно 3) определяет число случайных подвыборок - по возможности одинакового объема, которые формируются из обучающей выборки. Дерево классификации нужного размера строится V раз, причем каждый раз поочередно одна из подвыборок не используется в его построении, но затем используется как тестовая выборка для кросс-проверки. Таким образом, каждая подвыборка V - 1 раз участвует в обучающей выборке и ровно один раз служит тестовой выборкой. Цены кросс-проверки, вычисленные для всех V тестовых выборок, затем усредняются, и в результате получается V-кратная оценка для цены кросс-проверки.

Глобальная кросс-проверка

В этом варианте производится заданное число итераций, В этом варианте производится заданное число итераций (как правило 3), причем всякий раз часть обучающей выборки (равная единице, деленной на заданное целое число) оставляется в стороне, а затем по очереди каждая из отложенных частей используется как тестовая выборка для кросс-проверки построенного дерева классификации.

Преимущества использования деревьев решений

Рассмотрев основные проблемы, возникающие при построении деревьев, было бы несправедливо не упомянуть об их достоинствах:

· быстрый процесс обучения;

· генерация правил в областях, где эксперту трудно формализовать свои знания;

· извлечение правил на естественном языке;

· интуитивно понятная классификационная модель;

· высокая точность прогноза, сопоставимая с другими методами (метод опорных векторов, нейронные сети);

· построение непараметрических моделей.

Области применения деревьев решений

Деревья решений являются широко применяютсяв системах поддержки принятия решений, интеллектуального анализа данных в следующих областях:

· Банковское дело. Оценка кредитоспособности клиентов банка при выдаче кредитов.

· Промышленность. Контроль за качеством продукции (выявление дефектов), испытания без разрушений (например проверка качества сварки) и т.д.

· Медицина. Диагностика различных заболеваний.

· Молекулярная биология. Анализ строения аминокислот.

 










Последнее изменение этой страницы: 2018-04-12; просмотров: 160.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...