Студопедия КАТЕГОРИИ: АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
МЕТОДЫ ВЫЯВЛЕНИЯ ГРУБЫХ ОШИБОКОбработку засорений производят по следующему плану: 1) Распознавание ошибок и данных; 2) Выбор метода и проведение робастного оценивания данных; 3) Критериальная и логическая проверка и интерпретация результатов устойчивого оценивания.
Простым способом для обнаружения грубых ошибок является Т – Критерия Граббса:
s – Выборочное среднеквадратическое отклонение случайной величины.
Полученные значения По сравнению с оценками Граббса оценками грубых ошибок признаются L- и E- критерии, предложенные американскими статистиками Г. Тритьеном. И Г.Муром. 1. L-Критерий. Применяется для вычисления грубых ошибок в верхней части ранжированного ряда данных:
где n – Объем выборки; k – Число наблюдений с резко отклоняющимися значениями признака;
2.
где
3. E-критерий используется, когда в выборке имеются предположительно грубые ошибки с наибольшими и наименьшими значениями, т.е. расположенные в верхней и в нижней части ранжированного ряда данных:
где
Все три критерия
Пример. Имеются данные о количестве русских автомобилей на 2000 автомобилей в 20-ти городах.
Таблица 2 – Исходные данные.
На основе этих данных найдем обычные оценки средней и дисперсии и устойчивые оценки, учитывающие наличие в данных грубых ошибок. Решение: На первом этапе необходимо ранжировать ряд.
Таблица 3 – Ранжированный ряд данных.
В исходных данных вызывают сомнения данные 44,89; 55,26; 1606,41; 1788,56. Они отмечены жирным шрифтом в таблице 2. Можно предположить, что эти данные записаны неверно, взяты из другой графы отчетности или, наконец, представляют города резко отличающимися от основной совокупности своими экологическими характеристиками. Проверим эти данные на «засорение», применив критерий Граббса:
Сравним полученные значения с табличным (при
Т3(1606.41) и Т4(1788.56) больше табличных следовательно значения 1606,41 и 1788,56 аномальные. Проведем более тщательную проверку этих значений при помощи критерия Титьена и Мура: Мы применяем Е – критерий так как имеем предположение, что имеются грубые ошибки как с наибольшим, так и с наименьшим засорением то есть в нашем случае это 4 ошибки. Проводятся расчеты по усеченным данным то есть данным в которых отсутствуют предполагаемые ошибки.
Сравним полученные результаты с табличными данными (см. приложение В.) Таблица Критические значения Са-оценки для Число наблюдений необходимо взять равное 20-ти и кол-во ошибок равное 4-ем 0,026 < 0,221 следовательно все значения (44,89; 55,26; 1606,41; 1788,56.) являются засорением. (Табличные данные берем при а=0,05) ВАРИАНТЫ ЗАДАНИЙ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
Имеются следующие данные:
Используя приемы Граббса, Титьена и Мура, определите наличие грубых ошибок в совокупности данных.
4 МЕТОДЫ ИСЧИСЛЕНИЯ УСТОЙЧИВЫХ СТАТИСТИЧЕСКИХ ОЦЕНОК: ПУАНКАРЕ, ВИНЗОРА, ХУБЕРА После обнаружения выбросов в данных необходимо оценить параметры выборочной совокупности. При этом используется два метода: 1. Ошибки отбрасываются. Они исключаются из общей совокупности и расчеты проводятся по оставшимся данным. 2. Ошибки модифицируются, то есть ошибки заменяются на значения близкие к ним.
Пуанкаре предложил для расчета средней по усеченной совокупности (урезанной средней) формулу:
где
По Винзору средняя определяется также с заранее известным
Помимо средних величин по винзорированным данным могут быть найдены и другие показатели.
Помимо рассмотренных методов оценки широкое применение имеет классический подход Хубера. При это используется некоторая величина К, определяемая с учетом степени засорения статистической совокупности Оценка средней величины по Хуберу:
где
При расчетах по приведенной выше формуле в качестве начальной оценки Оценка Пример. Итак, рассчитаем устойчивые оценки. Для этого построим следующую таблицу:
Таблица 4 – Данные об количестве автомобилей отечественного производства.
Найдем значение параметра Найдем Теперь разобьем совокупность данных на 3 группы: 1. Не значительно отличающиеся от 2. Существенно меньше величины 3. Существенно превышающие Затем соответствующим образом модифицируем
Таблица 5 – Данные разбиты на совокупности.
Рассчитаем оценку
Возобновим итерацию по данным, модифицированным на предыдущем шаге:
Для второй итерации оценка
Чтобы удостовериться, что многомерное значение является действительно выбросом, обычно используют расстояние Махаланобиса:
где Х- Вектор признаковых значений, подозреваемых на выброс.
Критерий F для для проверки гипотезы о существенности отклонения случайного вектора Х строиться следующим образом:
Для F- критерия существуют числа а) Одно из наблюдений, которое предположительно является «засорением», подвергается проверке. Если предположение оправдывается, «выброс» устраняется из выборки; б) по усеченной совокупности многомерных объектов определяется новый вектор средних значений; в) проверке подвергается следующий объект, повторяются шаги а и б, и т.д. К выявленным грубым ошибкам в многомерной совокупности можно применять уже известные для одномерного случая приемы обработки данных: их устранение, или винзорирование. Итак, наиболее простые методы поиска ошибок Граббса, Титьена и Мура. Если в статистической совокупности действительно выявлены грубые ошибки, то применяем методы Пуанкаре, Хубера и Винзора.
ВАРИАНТЫ ЗАДАНИЙ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ Имеются сведения о размере прибыли, млн руб. (X1) и объёме основных производственных фондов (X2) по 20 производственным предприятиям:
Рассчитать обычную и устойчивую средние, используя методы Пуанкаре и Винзора, сравните полученные результаты.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА 1. Дубров А.М. Компонентный анализ и эффективность в экономике: Учебное пособие. – М.: Финансы и статистика. 2002. – 352 с. 2. Многомерный статистический анализ. А.М.Дубров, В.С.Мхитарян, Л.И. Трошин. – М.: «Финансы и статистика», 2000. – 352 с. 3. Многомерный статистический анализ в экономике. Л.А.Сошникова, В.Н.Тамашевич, Г.Уебе, М. Шеффер. – М.: «ЮНИТИ-ДАНА», 1999. – 598 с. 4. Прикладная статистика и основы эконометрики. С.А.Айвазян, В.С.Мхитарян. – М.: «ЮНИТИ», 1998. – 1022 с. 5. Решение математических задач средствами Excel: Практикум / В.Я. Гельман.— СПб.: Питер, 2003.-240 с. 6. http://www.exponenta.ru ПРИЛОЖЕНИЕ А
|
||
|
Последнее изменение этой страницы: 2018-05-10; просмотров: 1134. stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда... |