Студопедия

КАТЕГОРИИ:

Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Построение модели парной линейной регрессии

⇐ ПредыдущаяСтр 9 из 27Следующая ⇒

Прогнозировать изучаемые процессы можно с помощью регрессионных моделей. Наиболее простая из них – это модель парной линейной регрессии, которая имеет следующий вид:

(3.14)

Где b₀ – свободный член уравнения, отражающий влияние всех неучтенных факторов;

b₁ – коэффициент при факторе x.

Суть построения модели сводится к определению параметров уравнения (b₀, b₁).

В Excel построение этой модели осуществляется следующим образом:

1. Команда СЕРВИС – АНАЛИЗ ДАННЫХ – РЕГРЕССИЯ.

2. Ввести параметры окна (рис. 47).

3. ОК.

Рисунок 47. Ввод параметров окна при построении парной регрессии

Наиболее наглядно сравнение наблюдаемых и полученных с помощью модели значений иллюстрируется графиком подбора (рис. 48).

Рисунок 48. Соотношение модельных и эмпирических значений Y

Таблица 1

	Коэффициенты	Стандартная ошибка	T- Статистика	P- Значение	Нижние 95%	Верхние 95%
Y-пересечение	3 873,838	311,1546	12,4	3,99E-20	3 251,54	4 496,14
X	0,078 207	0,010 632	7,3	1,75E-10	0,057	0,099

В данном случае регрессионное уравнение будет иметь вид:

(3.15)

Интерпретировать это уравнение можно следующим образом: при увеличении среднедушевых инвестиций в экономику региона на 1 р. (Х) среднедушевые доходы населения (Y) возрастут в среднем на 8 к., при отсутствии влияния прочих факторов.

Качество модели в целом можно оценить множественным коэффициентом детерминации (R-квадрат), который для пары признаков Y и X равен:

(3.16)

Таким образом, можно сделать вывод, что 1 % изменчивости результативного признака Y объясняется изменчивостью признака X, то есть доля объясненной дисперсии результативного признака (Y) фактором (Х) равна 41 %, что является достаточно хорошим результатом, учитывая однофакторность модели.

Этот результат подтверждается данными табл. 2, где в строке R-квадрат показано число 0,41, при умножении которого на 100 получаем множественный коэффициент детерминации.

Таблица 2

Учитывая стохастическую природу построенной модели, необходимо оценить полученное уравнение регрессии с помощью средней ошибки аппроксимации и F-критерия Фишера, а статистическую значимость его параметров – с помощью t-критерия Стьюдента.

Найдем среднюю относительную ошибку аппроксимации по формуле:

(3.17)

Для вычисления согласно формуле (3.17) составим таблицу, фрагмент которой показан на рис. 49 в режиме формул и рис. 50 в режиме значений. Здесь в столбце J определяется сумма абсолютных относительных ошибок, а в ячейке К25 - сама средняя относительная ошибка аппроксимации.

Рисунок 49. Фрагмент таблицы расчета средней относительной ошибки аппроксимации в режиме формул

Рисунок 50. Фрагмент таблицы расчета средней относительной ошибки аппроксимации в режиме значений

В нашем примере = 24,1 %, т. к. значения средней относительной ошибки аппроксимации немногим более 20 %, то можно точность уравнения определить как недостаточно высокую. В этом случае возникает вопрос, какие регионы имеют наибольшее отклонение от среднестатистического уровня, определенного с помощью модели. Осуществим эту задачу с помощью автофильтра.

Решим задачу: определить первые пять регионов, имеющих наибольшее отклонение значений моделируемого признака от среднестатистического.

Решение:

1. В результате построения регрессионной модели имеем таблицу остатков (рис. 51).

Рисунок 51. Таблица остатков

2. Выделяем ее и назначаем режим автофильтра: Данные – Фильтр – Авто – фильтр.

3. В поле Остатки назначаем режим Первые 10…, вводим соответствующие параметры (рис. 52):

Рисунок 52. Назначение условий поиска

В результате получаем пять субъектов Федерации, имеющих наибольшее положительное отклонение от среднестатистического значения (рис. 53), т. е. в рамках построенной модели у этих регионов среднедушевые доходы необоснованно высоки.

Рисунок 53. Субъекты Федерации, у которых высокие уровни среднедушевых доходов не обусловлены существующим уровнем инвестиционной активности

Список же регионов с высоким потенциалом уровня среднедушевых доходов получим, выбрав условие «Первые пять – наименьших» (рис. 54).

Рисунок 54. Субъекты Федерации, у которых согласно построенной модели уровни среднедушевых доходов должны быть выше при существующем уровне инвестиционной активности

Если же остаток равен нулю, то уровень среднедушевых доходов в регионе соответствует среднестатистическому в рамках построенной модели. Однако такой случай в приведенном примере не наблюдался. Наибольшее соответствие эмпирического значения среднедушевых доходов с оценкой, полученной с помощью модели, у Ярославской области.

Исследование статистической значимости уравнения регрессии в целом проводится с помощью F-критерия Фишера-Снедекора. Прежде всего, выдвигается гипотеза Н₀ о том, что уравнение в целом статистически незначимо, при конкурирующей гипотезе Н₁: уравнение в целом статистически значимо. Расчетное значение критерия находится по формуле:

(3.18)

Для уравнения парной регрессии p = 1.

Пример получения количественной оценки F-критерия, согласно формуле (3.18), показан в таблице (рис. 55).

Рисунок 55. Фрагмент таблицы для расчета количественной оценки F-критерия в режиме формул

В режиме значений таблица получения количественной оценки F-критерия показана на рис. 56.

Рисунок 56. Фрагмент таблицы для расчета количественной оценки F-критерия в режиме значений

Табличное (теоретическое) значение критерия находится по таблице критических значений распределения Фишера-Снедекора по уровню значимости α и двум числам степеней свободы (k₁ = p = 1 и k₂ = n – p – 1 = 79 – 1 – 1 = 77):

Если F_расч < F_табл, то гипотеза Н₀ принимается, а уравнение линейной регрессии в целом считается статистически незначимым (с вероятностью ошибки 5 %).

Для уравнения (3.15) F_расч = 54,1, то есть неравенство не выполняется, следовательно, гипотеза Н0 отвергается. Делаем вывод, что построенная регрессионная модель в целом статистически значима.

Кроме оценки статистической модели в целом, необходимо проверить статистическую значимость оценок всех параметров (b₀, b₁) линейного уравнения. Осуществляется это с помощью t-критерия Стьюдента.

Выдвигается гипотеза Н₀: параметр b_j = 0 (j = 0, 1) (статистически незначим, случайно отличается от 0), при конкурирующей гипотезе Н₁: параметр b_j ≠ 0 (статистически значим, не случайно отличается от 0). Находится расчетное значение критерия Стьюдента:

где средняя квадратическая ошибка для параметра b₀ равна:

А для параметра b₁:

Расчет этих оценок показан в таблице в режиме формул на рис. 57, а в режиме значений – на рис. 58.

Рисунок 57. Фрагмент таблицы в режиме формул для расчета средних квадратических ошибок для параметров b₀ и b₁

Рисунок 58. Фрагмент таблицы в режиме значений для расчета средних квадратических ошибок для параметров b₀ и b₁

Зная m_i, можно определить расчетное значение критерия Стьюдента:

Для

Теоретическое значение критерия tтабл. находится по таблице критических значений распределения Стьюдента по уровню значимости α и числу степеней свободы k = n – p – 1. Если tbj > tтабл., то гипотеза Н0 отвергается с вероятностью ошибки α, т. е. оценка коэффициента регрессии bj признается статистически значимой, в противном случае (tbj< tтабл.) – незначимой.

Табличное значение критерия для уровня значимости α = 0,05 и числа степеней свободы k = n – 2 = 79 – 2 = 77 равно: tтабл. = 2,0.

Найдем доверительные интервалы для параметров b₀ и b₁ уравнения (1):

∆b₀= t_табл.· m_b0 = 2,0 · 311,15 = 622,30;

∆b1 = t_табл · m_b₁ = 2,0 · 0,010 632 5 = 0,021 265.

Следовательно, нижняя граница доверительного интервала для b₀ равна: b₀ b₀ = 3 873,837 9 – 622,3 = 3 251,54. Верхняя граница доверительного интервала для b0 равна: b₀ b₀= 3 873,837 9 + 622,3 = 4 496,14.

Нижняя граница доверительного интервала для b₁ равна:

b₁ - Db₁ =0,078 206 92- 0,021 265 = 0,056 9

Верхняя граница доверительного интервала для b₁ равна:

B₁ + Db₁ = 0,078 206 92+ 0,0212 65 = 0,099

Таблица 3

Проверка критерия Стьюдента

Уравнение регрессии = 3 873,838 + 0,078 × X
Параметр уравнения bj	Среднеквадратическая ошибка параметра m_bj	Расчетное значение критерия tbj	Табличное значение критерия *tтабл*	Вывод о статистической значимости	Границы доверительных интервалов
					левая	Правая
b0	311,15	12,45	2,0	значимая	3 251,54	4 496,14
b1	0,010 6	7,36		значимая	0,056 9	0,099

В результате проверки на статистическую значимость уравнения в целом, а также каждого его параметра можно сделать вывод о статистической его значимости, то есть построенная модель адекватно отражает рассматриваемое явление.

⇐ Предыдущая 4 5 6 7 8910 11 12 13 Следующая ⇒

Последнее изменение этой страницы: 2018-04-12; просмотров: 455.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...