Нормальное распределение. Зависимость и независимость выборок.

⇐ ПредыдущаяСтр 30 из 31Следующая ⇒

Выборки, строго подчиняющиеся нормальному распределению, на практике, как правило, не встречаются, поэтому необходимо выяснить, можно ли реальное распределение считать нормальным и насколько значительно исследуемое распределение отличается от нормального.

Существование нормального распределения случайной величины необходимо проверять прежде чем выбрать и применить любой метод анализа.

Если сравниваются два средних значения выборок, то можно сформулировать две предварительных гипотезы:

· Гипотеза 0 (нулевая): Наблюдаемые различия между средними значениями выборок находятся в пределах случайных отклонений.

· Гипотеза 1 (альтернативная): Наблюдаемые различия между средними значениями нельзя объяснить случайными отклонениями.

Пример:

Н₀: нулевая гипотеза – у покупателей нет вкусовых предпочтений

Н₁: альтернативная гипотеза – у покупателей есть вкусовые предпочтения.

В аналитической статистике разработаны методы вычисления так называемых тестовых (контрольных) величин, которые рассчитываются по определенным формулам на основе данных, содержащихся в выборках или полученных из них характеристик. Эти тестовые величины соответствуют определенным теоретическим распределениям (t-pacпpeделению, F-распределению, распределению хи-квадрат и т.д.), которые позволяют вычислить так называемую вероятность ошибки – процент ошибки, которую можно допустить отвергнув нулевую гипотезу и приняв альтернативную.

Вместе с критерием хи-квадрат, вычисляется р-уровень значимости.

Вероятность ошибки	Значимость	Обозначение
р > 0.05	Не значимая	ns
р <= 0.05	Значимая	*
р <= 0.01	Очень значимая	**
р <= 0.001	Максимально значимая	***

В SPSS вероятность ошибки р имеет различные обозначения; звездочки для указания степени значимости применяются лишь в немногих случаях.

С помощью SPSS можно провести множество тестов, например, если в таблицу сопряженности свести 50 переменных с другими 20 переменными и выполнить тест %2, то получится 1000 результатов проверки значимости или 1000 значений р.

Некритический подбор значимых величин может дать бессмысленный результат, так как уже при граничном уровне значимости р = 0,05 в пяти процентах наблюдений, то есть в 50 возможных наблюдениях, можно ожидать значимые результаты.

Многочисленные методы, с помощью которых обрабатываются переменные, относящиеся к интервальной шкале, исходят из гипотезы, что их значения подчиняются нормальному распределению. При таком распределении большая часть значений группируется около некоторого среднего значения, по обе стороны от которого частота наблюдений равномерно снижается.

Для нормально распределенных величин значение показателей асимметрии и эксцесса должно находится в пределах от минус 1 до плюс 1. Еще одну возможность проверки наличия нормального распределения дает построение графика нормального распределения. Кривая нормального распределения называется распределением Гаусса.

Если визуальное сравнение реальной гистограммы с кривой нормального распределения кажется недостаточным, можно применить тест Колмогорова-Смирнова. (Анализ-Непараметрические критерии-Одновыборочный тест Колмогорова-Смирнова), который рассчитывает z-критерий. В случае, когда р>0,05 приходим к выводу о нормальности распределения и используем параметрические тесты.

Пример: ф. 1994, переменная «Возраст первого вступления в брак» асимметрия составляет 1,773, эксцесс 6,678, что свидетельствует об отсутствии нормального распределения. Тест Колмогорова-Смирнова рассчитывает 2-хстороннюю асимптотическую значимость в 0,000, значение которой сравнивают со значением в 0,05. так как рассчитанное значение меньше критического, подтверждаем вывод о том, что форма распределения далека от нормального.

Пример: ф. Выборы переменная «Возраст» рассчитывает асимптотическую значимость в 0,36, значение которой сравнивают со значением в 0,05. так как рассчитанное значение больше критического, подтверждаем вывод о том, что форма нормальна.

Пример: ф. Интеллект, переменные «амт_1 –амт_6»

            Р < 0,05 – статистически значимые различия присутствуют

Р > 0,05 – нет статистически значимых различий

            Р < 0,05 – неравенство дисперсий – анализ второй строки таблицы

                 Р > 0,05 – равенство дисперсий – анализ первой строки таблицы

F-тест (тест Ливеня)

Однофакторный дисперсионный анализ

t-критерий

более 2 выборок

t-тест для парных выборок

ЗАВИСИМЫЕ ПЕРЕМЕННЫЕ

     параметрические тесты

Тест Колмогорова-Смирнова [Р > 0,05] – НР

Показатели асимметрии и эксцесса [-1; +1] – НР

Следующим этапом анализа данных является определение зависимости или независимости выборок.

Т-тесты предназначены для установления различий между двумя группами респондентов. При этом сравниваются только два средних значения. SPSS предлагает три основных типа t-тестов:

¾ для двух зависимых выборок;

¾ для двух независимых выборок;

¾ более, чем для двух независимых выборок.

Две выборки зависят друг от друга, если каждому значению одной выборки можно закономерным и однозначным способом поставить в соответствие ровно одно значение другой выборки. Чаще всего зависимые выборки возникают, когда измерение проводится для нескольких моментов времени. Зависимые выборки образуют значения параметров изучаемого процесса, соответствующие различным моментам времени.

В случае зависимых выборок используют t-критерий для парных выборок.

Пример: выявить наличие связи между начальной зарплатой и зарплатой в настоящее время

⇐ Предыдущая 22 23 24 25 26 27 28 293031 Следующая ⇒

Последнее изменение этой страницы: 2018-04-12; просмотров: 506.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...