Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

МЕТОДЫ ВЫЯВЛЕНИЯ ГРУБЫХ ОШИБОК




Обработку засорений производят по следующему плану:

1) Распознавание ошибок и данных;

2) Выбор метода и проведение робастного оценивания данных;

3) Критериальная и логическая проверка и интерпретация результатов устойчивого оценивания.

 

Простым способом для обнаружения грубых ошибок является Т – Критерия Граббса:

 

- среднее значение. Оценка выборочной средней находится по истинным данным либо

s – Выборочное среднеквадратическое отклонение случайной величины.

 

Полученные значения  сравнивают с табличными значениями процентных точек критерия Смирнова Граббса (см. приложение А). Если > , то проверяемое значение является грубой ошибкой и относится к классу выбросов. Критерий Граббса имеет некоторые недостатки. Он не точен, и не чувствителен к засорениям когда ошибки группируются на расстоянии от общей совокупности.

По сравнению с оценками Граббса оценками грубых ошибок признаются L- и E- критерии, предложенные американскими статистиками Г. Тритьеном. И Г.Муром.

1. L-Критерий. Применяется для вычисления грубых ошибок в верхней части ранжированного ряда данных:

 

,

 

где  - выборка наблюдений по какому-либо одному, j-му признаку;

n – Объем выборки;

k – Число наблюдений с резко отклоняющимися значениями признака;

- общая для выборочной совокупности данных средняя величина;

- средняя, которую рассчитывают по n – k наблюдениям, остающимися после отбрасывания k грубых ошибок «сверху» ранжированного ряда данных:

 

 

2. - критерий применяется для грубых ошибок в данных, расположенных в нижней части ранжированного ряда данных:

 

,

 

где - средняя рассчитанная по n-k наблюдениям, остающимися после отбрасывания k грубых ошибок «снизу»:

.

 

3.  E-критерий используется, когда в выборке имеются предположительно грубые ошибки с наибольшими и наименьшими значениями, т.е. расположенные в верхней и в нижней части ранжированного ряда данных:

 

,

 

где - средняя, рассчитанная по «истинным» данным после отбрасывания из выборки наименьших (к) и наибольших  - значений засоряющих совокупность данных:

 

.

 

 Все три критерия  имеют табулированное табличные критические значения для заданного уровня значимости α при известном объеме выборки n и предполагаемом числе ошибок К. Если наблюденные значения критериев оказываются меньше пороговых Са,к, то ошибки в данных, признаются грубыми. Иначе данные типичны для данной совокупности.

 

Пример.

Имеются данные о количестве русских автомобилей на 2000 автомобилей в 20-ти городах.

 

Таблица 2 – Исходные данные.

На основе этих данных найдем обычные оценки средней и дисперсии и устойчивые оценки, учитывающие наличие в данных грубых ошибок.

Решение:

На первом этапе необходимо ранжировать ряд.

 

Таблица 3 – Ранжированный ряд данных.

 

В исходных данных вызывают сомнения данные 44,89; 55,26; 1606,41; 1788,56. Они отмечены жирным шрифтом в таблице 2. Можно предположить, что эти данные записаны неверно, взяты из другой графы отчетности или, наконец, представляют города резко отличающимися от основной совокупности своими экологическими характеристиками. Проверим эти данные на «засорение», применив критерий Граббса:

 

 

 

 

 

Сравним полученные значения с табличным (при =0,10) при числе наблюдений равном 20 Ткр=2,447 (см. приложение Б).

 

1,390729634 < 2.447

 

1,364776432 < 2.447

 

2,518736004 > 2.447

 

2,974754931 > 2.447

 

 Т3(1606.41) и Т4(1788.56) больше табличных следовательно значения 1606,41 и 1788,56 аномальные. Проведем более тщательную проверку этих значений при помощи критерия Титьена и Мура:

Мы применяем Е – критерий так как имеем предположение, что имеются грубые ошибки как с наибольшим, так и с наименьшим засорением то есть в нашем случае это 4 ошибки.

Проводятся расчеты по усеченным данным то есть данным в которых отсутствуют предполагаемые ошибки.

 

 

Сравним полученные результаты с табличными данными (см. приложение В.)

Таблица Критические значения Са-оценки для  критерия Титьена и Мура ( =0,05)

Число наблюдений необходимо взять равное 20-ти и кол-во ошибок равное 4-ем 0,026 < 0,221 следовательно все значения (44,89; 55,26; 1606,41; 1788,56.) являются засорением. (Табличные данные берем при а=0,05)



ВАРИАНТЫ ЗАДАНИЙ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ

 

Имеются следующие данные:

Используя приемы Граббса, Титьена и Мура, определите наличие грубых ошибок в совокупности данных.

 

4 МЕТОДЫ ИСЧИСЛЕНИЯ УСТОЙЧИВЫХ СТАТИСТИЧЕСКИХ ОЦЕНОК: ПУАНКАРЕ, ВИНЗОРА, ХУБЕРА

После обнаружения выбросов в данных необходимо оценить параметры выборочной совокупности. При этом используется два метода:

1. Ошибки отбрасываются. Они исключаются из общей совокупности и расчеты проводятся по оставшимся данным.

2. Ошибки модифицируются, то есть ошибки заменяются на значения близкие к ним.

 

Пуанкаре предложил для расчета средней по усеченной совокупности (урезанной средней) формулу:

 

,

 

где - число грубых ошибок.

 - целая часть от произведения .

 - объем выборочной совокупности за исключением ошибочных данных.

 - некоторая функция засорения выборки (значения смотрятся по таблице — приложение Г).

 

По Винзору средняя определяется также с заранее известным  по формуле:

 

 ,

 

Помимо средних величин по винзорированным данным могут быть найдены и другие показатели.

 

Помимо рассмотренных методов оценки широкое применение имеет классический подход Хубера. При это используется некоторая величина К, определяемая с учетом степени засорения статистической совокупности  и определяющая шаг модификации резко отличающихся наблюдений.

Оценка средней величины по Хуберу:

 

,

 

где - Устойчивая оценка, определяется при помощи итеративных процедур;

- величина, которая допускается в качестве отклонения от центра совокупности, принимает постоянные значения с учетом удельного веса грубых ошибок в совокупности данных ;

-Численность группы наблюдений из совокупности, отличающихся наименьшими значениями: , или значения в интервале ( );

- Численность группы наблюдений из совокупности, отличающихся наибольшими значениями: , или значения в интервале ( );

При расчетах по приведенной выше формуле в качестве начальной оценки может применяться обычная средняя арифметическая или медиана, оцененная по выборке. Затем на каждой итерации производится разделение выборочной совокупности на три части. В одну часть попадают «истинные» признаковые значения, которые остаются без изменения ( ). В две другие части совокупности (для  и ) попадают «ошибки», они не исключаются из рассмотрения, а заменяются соответственно на величины  и . По «истинным» и модифицированным данным каждый раз определяется новая оценка средней  и итерация возобновляется. Итерации повторяются до тех пор, пока все наблюдения не оказываются в интервале «истинных» значений:

Оценка , найденная по методу Хубера, представляется достаточно эффективной, но быстро теряет оптимальные свойства с увеличением засорения выборки (ростом ).

Пример.

Итак, рассчитаем устойчивые оценки. Для этого построим следующую таблицу:

 

Таблица 4 – Данные об количестве автомобилей отечественного производства.

 

Найдем значение параметра (для этого разделим кол-во ошибок (4) на количество данных всей совокупности (20) и посмотрим значение по специальной таблице (см. приложение Д). при значении =0,2)

Найдем = = 600,38

Теперь разобьем совокупность данных на 3 группы:

1. Не значительно отличающиеся от

2. Существенно меньше величины .

3. Существенно превышающие .

Затем соответствующим образом модифицируем , если , или :

 

Таблица 5 – Данные разбиты на совокупности.

 

Рассчитаем оценку по данным, модифицированным первый раз :

 

 

Возобновим итерацию по данным, модифицированным на предыдущем шаге:

 

Для второй итерации оценка  будет:

 

 

Чтобы удостовериться, что многомерное значение является действительно выбросом, обычно используют расстояние Махаланобиса:

 

 

где Х- Вектор признаковых значений, подозреваемых на выброс.

- вектор средних значений для многомерной совокупности данных;

- Матрица ковариаций.

 

Критерий F для для проверки гипотезы о существенности отклонения случайного вектора Х строиться следующим образом:

 

.

 

Для F- критерия существуют числа  степеней свободы. При заданном уровне значимости , если , проверяемое наблюдение действительно признается аномальным. В противном случае отклонение случайного от вектора средних значений считается приемлемым, а гипотеза о «засорении» совокупности отбрасывается.

а) Одно из наблюдений, которое предположительно является «засорением», подвергается проверке. Если предположение оправдывается, «выброс» устраняется из выборки;

б) по усеченной совокупности многомерных объектов определяется новый вектор средних значений;

в) проверке подвергается следующий объект, повторяются шаги а и б, и т.д.

К выявленным грубым ошибкам в многомерной совокупности можно применять уже известные для одномерного случая приемы обработки данных: их устранение, или винзорирование.

Итак, наиболее простые методы поиска ошибок Граббса, Титьена и Мура. Если в статистической совокупности действительно выявлены грубые ошибки, то применяем методы Пуанкаре, Хубера и Винзора.

 

ВАРИАНТЫ ЗАДАНИЙ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ

Имеются сведения о размере прибыли, млн руб. (X1) и объёме основных производственных фондов (X2) по 20 производственным предприятиям:

 

 

Рассчитать обычную и устойчивую средние, используя методы Пуанкаре и Винзора, сравните полученные результаты.

 

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА

1. Дубров А.М. Компонентный анализ и эффективность в экономике: Учебное пособие. – М.: Финансы и статистика. 2002. – 352 с.

2. Многомерный статистический анализ. А.М.Дубров, В.С.Мхитарян, Л.И. Трошин. – М.: «Финансы и статистика», 2000. – 352 с.

3. Многомерный статистический анализ в экономике. Л.А.Сошникова, В.Н.Тамашевич, Г.Уебе, М. Шеффер. – М.: «ЮНИТИ-ДАНА», 1999. – 598 с.

4. Прикладная статистика и основы эконометрики. С.А.Айвазян, В.С.Мхитарян. – М.: «ЮНИТИ», 1998. – 1022 с.

5. Решение математических задач средствами Excel: Практикум / В.Я. Гельман.— СПб.: Питер, 2003.-240 с.

6. http://www.exponenta.ru



ПРИЛОЖЕНИЕ А

 










Последнее изменение этой страницы: 2018-05-10; просмотров: 891.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...