Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Определение аномальных значений совокупностей




Неоднородные совокупности следует проверить на наличие «выбросов».

«Выбросы» – это нетипичные или редкие значения, которые существенно отклоняются от распределения остальных выборочных данных. Эти данные могут отражать истинные свойства изучаемого явления (переменной), а могут быть связаны с ошибками измерения или аномальными явлениями и поэтому не должны включаться в модель. Визуально «выбросы» можно проследить на графике. Для этого необходимо построить линейный график, ось абсцисс которого – название регионов, ось ординат – значения показателя (рис. 36).

 

 

Рисунок 36. График определения аномальных значений совокупности «сверху»

 

 

Получаем график, визуальный анализ которого позволяет сделать вывод о регионах - точках «выбросов» по данному показателю. В нашем случае это г. Москва, так как значение этого показателя выше верхней границы.

Аналитически (один из простейших способов) «выбросы» определяются с помощью следующего правила: значение может быть отброшено, если оно лежит вне области Xср. ± 4 . Причем среднее значение и стандартное отклонение рассчитывается без учета экстремальных значений (в нашем случае без значения г. Москвы).

Пример. Определим, является ли значение среднедушевых доходов         г. Москвы аномальным для рассматриваемой совокупности регионов. Зная значение «аномальной» точки, определим верхнюю допустимую границу. Все расчеты оформим в виде таблицы (рис. 37). Заполнение ее будет состоять из следующих этапов:

1. Определить числовое значение показателя, соответствующего точке выброса (максимальное или минимальное значение по столбцу).

2. Рассчитать среднее значение показателя без учета точки выброса с помощью формулы:

=(СУММ($C$3:$C$81)-$C$20)/(СЧЕТ($C$3:$C$81)-1).

3. Найти квадрат отклонения текущих значений от среднего (без учета значения г. Москвы), например для Белгородской области, с помощью формулы: =(C3-$D$3) ^2.

4. Определить среднеквадратическое отклонение признака без учета точки выброса с помощью формулы:

КОРЕНЬ((СУММ($E$3: $E$81)/СЧЕТ($E$3:$E$81))),

включив ее в формулу расчета верхней и нижней границ допустимых интервалов соответственно:

=D3+4*КОРЕНЬ((СУММ($E$3:$E$81)/СЧЕТ($E$3:$E$81))) – для верхней границы;

=D3-4*КОРЕНЬ((СУММ($E$3:$E$81)/СЧЕТ($E$3:$E$81))) – для нижней.

 


 

Рисунок 37. Фрагмент таблицы в режиме формул определения допустимых границ значений показателей  

В режиме значений таблица дана на рис. 38.

Рисунок 38 . Фрагмент таблицы в режиме «значений» определения допустимых границ показателей

Для определения того, является ли значение г. Москвы точкой «выброса», введем логическую функцию, например в ячейку D86:

=ЕСЛИ(C20>F3; «аномальное значение»; «значение принадлежит совокупности»), где С20 – ячейка, содержащая среднедушевые доходы г. Москвы; F3 – ячейка, содержащая верхние допустимые границы.

В нашем случае в ячейке «результат» будет сообщение: аномальное значение. Следовательно, при проведении корреляционно-регрессионного анализа необходимо значение г. Москвы исключить из совокупности, например, сформировав новую таблицу с помощью расширенного фильтра.

Следующий этап разведочного анализа – определение характера распределения совокупности значений данных визуально с помощью построения гистограмм.

 



Построение гистограмм

Построение вариационного ряда (ряда ранжирования) представляет собой упорядочение распределения числа единиц совокупности по возрастающим значениям признака.

Если признак принимает конечное число значений, то строится дискретный вариационный ряд. При его построении необходимо реализовать следующие шаги.

1. Определить число групп по формуле Стерджесса:

                                (3.6)

Где k - число групп;

n - число элементов в совокупности.

Согласно формуле (3.2), число групп при построении вариационного ряда зависит от числа наблюдений в совокупности рассматриваемых объектов.

2. Рассчитать величину интервала h (шага) по формуле:

                                       (3.7)

где Xmax, Xmin – максимальное и минимальное значение признака в совокупности.

3. Итерационным добавлением шага к минимальному значению признака определить интервалы распределения значений этого признака.

4. Определить число вхождений регионов в заданный интервал.

5. Построить гистограмму (графическое изображение вариационного ряда).

Пример расчета параметров вариационного ряда Y1 дан на рис. 39.

Рисунок 39. Расчет параметров вариационного ряда Y1 (фрагмент таблицы)

Построение гистограммы можно осуществить с помощью Пакета анализа Excel (в этом случае параметры вариационного ряда рассчитываются автоматически). Окно построения гистограммы (рис. 40) загружается последовательностью действий:

Загрузка пакета анализа данных:

1. Нажмите кнопку Microsoft Office , а затем щелкните Параметры Excel.

2. Щелкните Надстройки.

3. В поле Управление выберите Надстройки Microsoft Excel, а затем нажмите кнопку Перейти.

4. В поле Доступные надстройки выполните одно из следующих действий:

a. Чтобы загрузить пакет анализа, установите флажок Пакет анализа и нажмите кнопку OK;

b. Чтобы включить функции VBA (Visual Basic for Applications) для пакета анализа, установите флажок. Пакет анализа – VBA и нажмите кнопку OK.

Рисунок 40. Выбор команды построения гистограммы

Далее необходимо ввести параметры окна построения гистограммы

(рис. 41).

Рисунок 41. Пример ввода параметров окна построения гистограммы

 

В результате получим следующий график (рис. 42).

Рисунок 42. Гистограмма распределения экономических преступлений в регионах

Анализируя гистограмму, можно сказать, что примерно в 75 регионах число экономических преступлений не превышает 8 000 тыс. случаев в год. Для Московской же области значение этого показателя достигает более   20 000 случаев в год. Этот регион рассматривается как «выброс», следовательно, его значение не должно учитываться при построении регрессионной модели.

Принимая во внимание, что статистические методы наиболее точно «работают» с однородными совокупностями данных, в завершение этого этапа необходимо проверить гипотезу о соответствии полученного эмпирического распределения теоретическому нормальному закону, как правило, по критерию X2 (хи-квадрат).

Под теоретической кривой распределения понимается графическое изображение ряда в виде непрерывной линии изменения частот в вариационном ряду, функционально связанного с изменением значений признака. Теоретическое распределение выражается с помощью формулы, называемой законом распределения. Так, для нормального закона распределения эта формула имеет вид:

                                        (3.8)










Последнее изменение этой страницы: 2018-04-12; просмотров: 341.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...