Студопедия

КАТЕГОРИИ:

Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Фиктивные переменные в регрессионной модели 1 страница

⇐ ПредыдущаяСтр 18 из 31Следующая ⇒

В линейную модель множественной регрессии, как правило, включаются количественные факторы X₁, X₂, …, X_p, принимающие значения из некоторого интервала, непрерывного либо дискретного. Однако может возникнуть необходимость учесть влияние на зависимую переменную Y и факторов, не измеряемых в числовой шкале (например, формы собственности предприятия, сезонности, региона, климатических условий, пола работника, его уровня образования и т.п.). Такие качественные факторы могут иметь два и более атрибута (градации). Чтобы ввести качественный фактор в регрессионную модель, его необходимо преобразовать в количественную переменную, т.е. присвоить каждому атрибуту те или иные числовые значения. Эту преобразованную переменную называют фиктивной (условной), а модель регрессии, включающую в себя хотя бы одну фиктивную переменную, называют моделью с переменной структурой. Основной целью построения такой модели является учет влияния неоднородности качественной структуры исследуемой совокупности.

В качестве фиктивных обычно используют бинарные переменные, принимающие только два значения (уровня): «0» или «1». Такие переменные также называются двоичными, дихотомическими, альтернативными, или булевыми. К примеру, если необходимо изучить зависимость общей рентабельностипредприятия Y не только от количественных факторов X₁, X₂, …, X_p, но и от фактора «форма собственности», то в модель вводят фиктивную переменную Z₁, принимающую значения: z₁=1 — если предприятие негосударственное и z₁=0 — если предприятие государственное.

Регрессионная модель рентабельности, в этом случае, примет вид:

(3.58)

Параметр регрессии g₁ при фиктивной переменной Z₁ показывает, на сколько в среднем рентабельность негосударственных предприятий в исследуемой совокупности выше, чем государственных при неизменных значениях остальных факторов X₁, X₂, …, X_p. Если не учитывать различия, связанные с формой собственности, то они могут либо уйти в остаточную вариацию результата Y, ухудшив модель, либо смешаться с влиянием тех или иных количественных факторов, искажая меру их влияния на Y.

В модель множественной регрессии можно одновременно ввести несколько фиктивных переменных Z₁, Z₂, …, Z_u:

(3.59)

Обычно значение, равное единице, присваивают фиктивной переменной для той группы исследуемых объектов, у которых значение результата Y предположительно в среднем выше, чем у объектов альтернативной группы. Положительный знак коэффициента уравнения регрессии при фиктивной переменной и его статистическая значимость в дальнейшем подтверждают это предположение. При отрицательном знаке следует сделать обратный вывод.

Применение фиктивной переменной с другими значениями или с большим числом уровней затрудняет содержательную экономическую интерпретацию соответствующего коэффициента уравнения регрессии. Например, если число k уровней качественного признакаболее двух ( ), то в принципе в регрессионную модель можно было бы ввести дискретную переменную, принимающую такое же количество значений. Так, если расширить трактовку фактора «форма собственности» до трех групп: государственные, кооперативные и частные предприятия, то при построении модели рентабельности можно рассматривать три значения (k=3) фиктивной переменной Z₁, например: z₁=1 — если предприятие государственное, z₁=2 — если кооперативное, и z₁=3 — если частное. Однако содержательная интерпретация коэффициента уравнения регрессии при Z₁ тогда будет невозможна. Вместо этого в модель следует ввести бинарных переменных и для учета влияния формы собственности включают бинарные переменные — Z₁₁ и Z₁₂:

(3.60)

где z₁₁=1 — если предприятие частное, z₁₁=0 — во всех остальных случаях; z₁₂=1 — если предприятие кооперативное, z₁₂=0 — во всех остальных случаях.

Третьей бинарной переменной, очевидно, не требуется: еслипредприятие государственное, то это будет отражено парой значений z₁₁=0 и z₁₂=0. Более того, вводить третью бинарную переменную Z₁₃ со значениями z₁₃=1, если предприятие государственное и z₁₃=0 — в остальных случаях, нельзя, так как это приведет к невозможности получения оценок параметров модели при фиктивных переменных методом наименьших квадратов.

Параметры модели при Z₁₁ и Z₁₂ интерпретируются следующим образом. Параметр g₁₁ показывает, на сколько средняя рентабельность частных предприятий при прочих равных условиях выше средней рентабельности государственных предприятий, которые приняты за базу для сравнения. Аналогично параметр g₁₂ показывает превышение средней рентабельности кооперативных предприятий над этим показателем у государственных предприятий.

Модели регрессии (3.58) — (3.60) называются моделями без ограничений. Если значения каких-либо фиктивных переменных равны нулю, то получаются частные модели регрессии. Так, если в модели (3.60) все значения фиктивных переменных равны нулю: z₁₁=0 и z₁₂=0, то получается модель (3.2), которая в этом случае называется базисной моделью, или моделью регрессии с ограничениями. Данная модель является частной моделью государственного предприятия. Частная модель регрессии частного предприятия (z₁₁=1, z₁₂=0) образуется путем добавления параметра g₁₁ к свободному коэффициенту b₀:

(3.61)

Аналогично частная модель кооперативного предприятия (z₁₁=0, z₁₂=1):

(3.62)

На практике могут использоваться регрессионные модели только с фиктивными переменными-факторами. Пусть, например, изучаются различия в средней стоимости квадратного метра общей площади квартиры (переменная Y), в зависимости от района города, типа дома и этажа (фиктивные переменные Z₁, Z₂ и Z₃ соответственно). Модель регрессии в этом случае может иметь вид:

(3.63)

где z₁=1 — если дом расположен в центральном районе города, z₁=0 — если дом расположен в периферийном районе; z₂=1 — если дом кирпичный, z₂=0 — если дом панельный; z₃=1 — если квартира расположена на средних этажах, z₃=0 — если квартира расположена на крайних этажах.

Базисной моделью здесь является модель средней стоимости квадратного метра квартиры на крайних этажах (z₃=0) в панельном доме (z₂=0), расположенном в периферийном районе города (z₁=0). Параметр g₀ модели (3.63) и показывает среднюю стоимость квадратного метра такой квартиры. Параметр g₁ характеризует разницу в средней стоимости квадратного метра квартир, расположенных в центральном и периферийном районах города, параметр g₂ — эту разницу в зависимости от типа дома, параметр g₃ — в зависимости от этажа.

Параметры модели с фиктивными переменными оцениваются по исходным данным обычным методом наименьших квадратов. Предварительно следует провести проверку на коллинеарность, причем как фиктивных переменных между собой, так и фиктивных переменных с количественными факторами (см. § 3.4).

Уравнение регрессии модели (3.59) выглядит следующим образом:

(3.64)

где g₁, g₂, …, g_u — оценки соответствующих параметров g₁, g₂, …, g_u модели.

После построения уравнения регрессии проверяется его статистическая значимость в целом и значимость отдельных коэффициентов соответственно по критериям Фишера и Стьюдента. Значимость коэффициента при фиктивной переменной на принятом уровне значимости a свидетельствует о существенном (значимом) различии между значениями результата Y для разных уровней фиктивной переменной и, соответственно, групп исследуемых объектов.

Если значимость коэффициентапри фиктивной переменной не установлена, то разница между градациями соответствующего качественного фактора признается несущественной. Если значение t-статистики при этом превышает по абсолютной величине единицу, то фиктивная переменная все же может считаться в какой-то степени информативной. Однако, если t-статистика по абсолютной величине меньше единицы, то соответствующую фиктивную переменную следует исключить из модели и заново построить уравнение регрессии уже без нее. Следует, однако, учитывать, что незначимость коэффициента при фиктивной переменной может быть вызвана и недостаточным объемом выборки.

Возвратимся к рассмотренным выше примерам. Пусть строится модель с одной фиктивной переменной (3.58) и уравнение регрессии будет иметь вид:

(3.65)

Если коэффициент g₁ признается статистически значимым на принятом уровне a, то это означает, что разница между рентабельностью частных и государственных предприятий в исследуемой совокупности признается существенной, а фиктивная переменная Z₁ введена в модель обоснованно.

Пусть, к примеру, исследуется зависимость рентабельности однородных предприятий (зависимая переменная Y, %) от стоимости основных фондов (фактор X₁, млн. руб.) и формы собственности (фиктивная переменная Z₁: z₁=1— если предприятие негосударственное, z₁=0 — если предприятие государственное), и по имеющимся данным было получено уравнение регрессии

Базисной моделью здесь является модель рентабельности государственного предприятия (z₁=0), уравнение регрессии которой

Предположим, что коэффициент при фиктивной переменной Z₁ оказался статистически значимым на принятом уровне a=0,05. Тогда можно утверждать, что рентабельность негосударственных предприятий в среднем на 4,34 % выше, чем государственных. Коэффициент регрессии при переменной X₁ показывает, что рост стоимости основных фондов на 1 млн. руб. приводит в среднем к снижению рентабельности на 0,032 % как государственных, так и негосударственных предприятий.

Уравнение регрессии модели (3.60) выглядит следующим образом:

(3.66)

Пусть, к примеру, коэффициент g₁₁ оказался статистически значимым, а коэффициент g₁₂ — незначимым. Тогда разница между рентабельностью частных и государственных предприятий признается существенной, а разница между рентабельностью кооперативных и государственных предприятий — несущественной. Если t-статистика коэффициента g₁₂ при этом по абсолютной величине меньше единицы, то фиктивную переменную Z₁₂ следует исключить из модели и перейти к построению модели с одной фиктивной переменной (3.58).

Допустим, исследуется зависимость рентабельности однородных предприятий (зависимая переменная Y, %) от стоимости основных фондов (переменная X₁, млн. руб.) и формы собственности (бинарные переменные Z₁₁ и Z₁₂: z₁₁=1 — если предприятие частное, z₁₁=0 — во всех остальных случаях; z₁₂=1 — если предприятие кооперативное, z₁₂=0 — во всех остальных случаях), и было построено уравнение регрессии

Видно, что рост стоимости основных фондов на 1 млн. руб. приводит к снижению рентабельности всех предприятий в среднем на 0,028 %.

Базисной моделью здесь является модель рентабельности государственного предприятия (z₁₁=0, z₁₂=0), для которой уравнение регрессии

Пусть коэффициенты при фиктивных переменных Z₁₁ и Z₁₂ оказались статистически значимыми на принятом уровне a=0,05. Уравнение регрессии частной модели рентабельности частного предприятия (z₁₁=1, z₁₂=0) примет вид:

Таким образом, средняя рентабельность частных предприятий при одинаковой стоимости основных фондов на 2,76 % выше средней рентабельности государственных предприятий.

Аналогично для кооперативных предприятий (z₁₁=0, z₁₂=1) уравнение регрессии частной модели

Видно, что рентабельность кооперативных предприятий оказалась в среднем на 1,98 % выше рентабельности государственных предприятий.

Разница между коэффициентами при фиктивных переменных Z₁₁ и Z₁₂ — %, показывает, на сколько в среднем рентабельность частных предприятий выше рентабельности кооперативных предприятий.

Уравнение регрессии модели только с фиктивными переменными (3.63) будет иметь вид:

(3.67)

Пусть, например, по имеющимся данным было получено уравнение регрессии модели средней стоимости квадратного метра квартиры

и все коэффициенты при фиктивных переменныхоказались статистически значимыми на принятом уровне a. Эти коэффициенты интерпретируются следующим образом: средняя стоимость квадратного метра квартиры на крайних этажах (z₃=0) в панельном доме (z₂=0), расположенном в периферийном районе города (z₁=0), составляет 532,1 у.е.; если дом располагается в центральном районе, то средняя стоимость квадратного метра возрастает на 187,6 у.е.; кирпичный дом дополнительно повышает среднюю стоимость квадратного метра на 142,4 у.е., а расположение квартиры на средних этажах — на 92,3 у.е.

Следует иметь в виду, что надежные оценки параметров модели (3.63) могут быть получены только при построении уравнения регрессии по достаточно большому числу наблюдений. Обычно при построении такой модели объем выборки должен превышать число факторов в шесть и более раз.

Решение типовых задач

Пример 3.1

Изучается зависимость чистой годовой прибылистраховой компании (зависимая переменная Y, тыс. руб.) от следующих факторов:

· X₁ — годовой размер собственных средств (тыс. руб.);

· X₂ — годовой размер страховых резервов (тыс. руб.);

· X₃ — годовой размер страховых премий (тыс. руб.);

· X₄ — годовой размер страховых выплат (тыс. руб.);

· X₅ — численность страховых агентов;

· X₆ — форма собственности (0 — государственная, 1 — частная):

Компания	Y	X₁	X₂	X₃	X₄	X₅	X₆
1. А	1012	4563	5236	11456	1659	57	0
2. Б	462	2658	6354	5249	3562	48	0
3. В	2046	8563	2213	12968	3256	51	1
4. Г	528	5689	6398	7589	6325	45	0
5. Д	418	4562	4689	7256	6953	55	0
6. Е	814	2248	6359	4963	4321	66	1
7. Ж	528	5671	5123	7259	6692	63	0
8. З	902	4312	7256	4562	2895	38	1
9. И	495	2226	2356	2693	5532	56	1
10. К	506	5689	9356	6324	3235	51	0
11. Л	715	2635	6359	7853	6895	39	1
12. М	319	6235	8896	8253	8562	15	1
13. Н	374	4856	5632	7564	6325	53	0
14. О	726	7546	7563	9638	4569	43	1
15. П	1034	8856	4856	11487	6935	58	0
16. Р	484	2689	6385	5280	3593	51	1
17. С	2068	9754	6532	12999	1876	64	0
18. Т	550	4557	6429	7620	6927	51	0
19. У	440	4963	4720	7287	6984	58	1
20. Ф	836	2279	6390	4994	4352	55	1
21. Х	550	5702	5154	7290	6723	61	0
22. Ц	924	3265	7287	4593	2563	52	1
23. Ч	517	2257	5463	2724	7562	38	1
24. Ш	528	4869	6013	6355	3266	55	0
25. Щ	737	2666	5231	7884	5356	56	1
26. Ю	341	6395	7563	8284	9568	43	0
27. Я	396	3599	5663	7595	7359	45	0

Требуется:

1. Составить матрицу парных коэффициентов корреляции между всеми исследуемыми переменными и выявить коллинеарные факторы.

2. Построить уравнение линейной регрессии с полным перечнем факторов. Оценить статистическую значимость уравнения и его коэффициентов с помощью критериев Фишера и Стьюдента.

3. Построить уравнение регрессии, не содержащее коллинеарных факторов. Проверить статистическую значимость уравнения и его коэффициентов.

4. Построить уравнение регрессии, содержащее только информативные факторы. Проверить статистическую значимость уравнения и его коэффициентов.

Пункты 5 — 9 относятся к уравнению регрессии, построенному при выполнении пункта 4.

5. Оценить качество и точность уравнения регрессии.

6. Дать экономическую интерпретацию коэффициентам уравнения регрессии и сравнительную оценку силы связи факторов с результатом.

7. Построить график остатков и проверить выполнение предпосылок обычного метода наименьших квадратов.

8. Рассчитать прогнозное значение годовой прибыли Y, если прогнозные значения факторов составят 75 % от своих максимальных значений.

9. Построить доверительный интервал прогноза фактического значения годовой прибыли Y c надежностью 80 %.

Решение

Для решения задачи используем табличный процессор EXCEL.

1. С помощью надстройки «Анализ данных… Корреляция» (см. § 5.2) строим матрицу парных коэффициентов корреляции между всеми исследуемыми переменными (табл. 3.3).

Таблица	3.3
Матрица парных коэффициентов корреляции

	Y	X1	X2	X3	X4	X5	X6
Y	1
X1	0,519	1
X2	-0,273	0,030	1
X3	0,610	0,813	-0,116	1
X4	-0,572	-0,013	-0,022	-0,091	1
X5	0,297	0,043	-0,461	0,120	-0,359	1
X6	0,118	-0,366	-0,061	-0,329	-0,100	-0,290	1

Анализ значений коэффициентов корреляции между парами факторов Х₁, Х₂, …, Х₆ показывает, что только коэффициент корреляции между факторами Х₁ и Х₃ превышает по абсолютной величине 0,8 (выделен в таблице заливкой). Факторы Х₁ и Х₃ являются, таким образом, коллинеарными.

2. С помощью надстройки «Анализ данных… Регрессия» (см. § 5.3) строим уравнение линейной регрессии с полным перечнем факторов. Результаты регрессионного анализа в EXCEL приведены в табл. 3.4. Уравнение регрессии с полным перечнем факторов имеет вид:

Таблица	3.4
Результаты регрессионного анализа модели с полным перечнем факторов

Регрессионная статистика
Множественный R						0,887
R-квадрат						0,787
Нормированный R-квадрат						0,723
Стандартная ошибка						230,3
Наблюдения						27
Дисперсионный анализ
	df		SS		MS		F	Значимость F
Регрессия	6		3921843,8		653640,6		12,33	8,20E-06
Остаток	20		1060461,1		53023,1
Итого	26		4982305,0
Уравнение регрессии
		Коэффициенты		Стандартная ошибка			t-статистика		P-Значение
Y-пересечение		541,8		610,4			0,888		0,385
X1		0,0680		0,0378			1,801		0,087
X2		-0,0561		0,0359			-1,562		0,134
X3		0,0606		0,0304			1,992		0,060
X4		-0,0998		0,0250			-3,989		0,001
X5		2,674		6,011			0,445		0,661
X6		275,0		108,4			2,536		0,020

Проверим статистическую значимость уравнения регрессии. Табличное значение F-критерия Фишера можно определить с помощью встроенной функции EXCEL «FРАСПОБР» (см. § 5.4). Для уровня значимости a=0,05 и чисел степеней свободы числителя (регрессии) (где p=6 — число факторов в модели) и знаменателя (остатка) табличное оно составляет F_таб=2,60.

⇐ Предыдущая 13 14 15 16 171819 20 21 22 Следующая ⇒

Последнее изменение этой страницы: 2018-04-12; просмотров: 766.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...