Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Multiple Regression - Col_2




Лабораторная работа № 4

Построение регрессионной модели
системы двух случайных величин

Цель работы: изучить основные методы регрессионного и корреляционного анализа; исследовать зависимость между двумя случайными величинами, заданными выборками.

Задание: по виду корреляционного поля сделать предположение о форме регрессионной зависимости между двумя случайными величинами; используя метод наименьших квадратов, найти параметры уравнения регрессии; оценить качество описания зависимости полученным уравнением регрессии.

Пример.По результатам пятнадцати совместных измерений веса грузового поезда, т, и соответствующего времени нахождения поезда на участке Y, ч, представленных в таблице 4.3, следует исследовать зависимость между данными величинами.

Необходимо определить коэффициенты уравнения регрессии методом наименьших квадратов, оценить тесноту связи между величинами, проверить значимость коэффициента корреляции и спрогнозировать время нахождения поезда на участке при заданном весе поезда (5200 т).

Решение. На величину времени нахождения поезда на участке Y, помимо веса X, влияние оказывает качество железнодорожного полотна, качество подвижного состава, топливо и другие факторы. Поэтому зависимость между величиной времени нахождения поезда на участке Y и веса поезда X является статистической: при одном весе поезда при различных дополнительных условиях время нахождения поезда на участке может принимать различные значения.

Для определения вида регрессионной зависимости построим корреляционное поле.

Рисунок 4.1– Корреляционное поле

 

 


Построение линейной модели

 

Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о линейной регрессионной зависимости

 

Таблица 4.1 – Результаты промежуточных вычислений

Вес грузового состава, т, Время нахождения поезда на участке, час.,
5711,62 4,265 434,94 189172,8 0,059 0,003481 658,51
4730,51 4,136 -546,17 298301,7 -0,07 0,0049 1461,68
5027,05 4,174 -249,63 62315,14 -0,032 0,001024 63,81
5224,4 4,2 -52,28 2733,198 -0,006 3,6E-05 0,10
5537,1 4,24 260,42 67818,58 0,034 0,001156 78,40
5510 4,238 233,32 54438,22 0,032 0,001024 55,74
5233,44 4,2 -43,24 1869,698 -0,006 3,6E-05 0,07
4912,66 4,16 -364,02 132510,6 -0,046 0,002116 280,39
5329,88 4,2 53,2 2830,24 -0,006 3,6E-05 0,10
5455,61 4,231 178,93 32015,94 0,025 0,000625 20,01
5196,83 4,19 -79,85 6376,023 -0,016 0,000256 1,63
5924,08 4,294 647,4 419126,8 0,088 0,007744 3245,72
4476,26 4,1 -800,42 640672,2 -0,106 0,011236 7198,59
4849,98 4,15 -426,7 182072,9 -0,056 0,003136 570,98
6030,83 4,31 754,15 568742,2 0,104 0,010816 6151,52
Итого 79150,25 63,088 0 2660996,12 0 0,047622 19787,25

 

Найдем уравнение прямой линии методом наименьших квадратов .

Средний вес грузового состава:

= .

Среднее значение времени нахождения поезда на участке:

 =

Коэффициенты уравнения:

Уравнение регрессии имеет вид : .

Для линейной связи коэффициенты:

- постоянная регрессии, показывает точку пересечения прямой с осью ординат

- коэффициент регрессии, показывает меру зависимости переменных y от х, указывает среднюю величину изменения переменной у при изменении х на одну единицу, знак В1 определяет направление этого изменения .

Вычислим линейный коэффициент корреляции

 = .

 

Таблица 4.2 – Расчет значений времени нахождения поезда на участке по уравнению регрессии

Вес грузового состава, т, Время нахождения поезда на участке, час.,
5711,62 4,265 7,215988
4730,51 4,136 -0,04423
5027,05 4,174 2,15017
5224,4 4,2 3,61056
5537,1 4,24 5,92454
5510 4,238 5,724
5233,44 4,2 3,677456
4912,66 4,16 1,303684
5329,88 4,2 4,391112
5455,61 4,231 5,321514
5196,83 4,19 3,406542
5924,08 4,294 8,788192
4476,26 4,1 -1,92568
4849,98 4,15 0,839852
6030,83 4,31 9,578142
Итого 79150,25 63,088 59,96185

 

Рисунок 4.2 – Корреляционное поле и линия регрессии

 

 

Спрогнозируем время нахождения поезда на участке при заданном весе грузового состава (5200 т).

Качественная оценка тесноты связи между величинами выявлена по шкале Чеддока (таблица 4.3).

 

Таблица 4.3 - Шкала Чеддока

 

Теснота связи

Значение коэффициента корреляции

при наличии

прямой связи обратной связи
Слабая 0,1–0,3 (-0,1)–(-0,3)
Умеренная 0,3–0,5 (-0,3)–(-0,5)
Заметная 0,5–0,7 (-0,5)–(-0,7)
Высокая 0,7–0,9 (-0,7)–(-0,9)
Весьма высокая 0,9–0,99 (-0,9)–(-0,99)

Multiple Regression - Col_2

Dependent variable: Col_2

Independentvariables:

Col_1

 

    Standard T  
Parameter Estimate Error Statistic P-Value
CONSTANT 2,93509 0,0727762 40,3304 0,0000
Col_1 0,00023564 0,0000151847 15,5182 0,0000

 

AnalysisofVariance

Source SumofSquares Df MeanSquare F-Ratio P-Value
Model 0,152658 1 0,152658 240,81 0,0000
Residual 0,008241 13 0,000633923    
Total (Corr.) 0,160899 14      

 

R-squared = 94,8782percent

R-squared (adjusted for d.f.) = 94,4842 percent

Standard Error of Est. = 0,0251778

Mean absolute error = 0,0169255

Durbin-Watson statistic = 1,36787 (P=0,0913)

Lag 1 residual autocorrelation = 0,0654037

 

The StatAdvisor

The output shows the results of fitting a multiple linear regression model to describe the relationship between Col_2 and 1 independent variables. The equation of the fitted model is

 

Col_2 = 2,93509 + 0,00023564*Col_1

 

Since the P-value in the ANOVA table is less than 0,05, there is a statistically significant relationship between the variables at the 95,0% confidence level.

Вывод. Линейный коэффициент корреляции характеризует тесноту связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. Т.к. = 0,974, то можно говорить о том, что между величинами X и Y существует линейная прямая, весьма высокая связь.

 

Чтобы сделать статистический вывод о значимости коэффициента корреляции (при проверке линейности регрессионной зависимости) выдвигается нулевая гипотеза об отсутствии линейной зависимости между исследуемыми с. в. против альтернативной гипотезы о наличии линейной связи.

,

.

 

Если гипотеза H0отклоняется, то считается, что уравнение регрессии Y по X действительно имеет линейный вид .

Для проверки гипотезы H0 вычисляется t-статистика        

= .                   

При условии справедливости гипотезы H0 рассчитанная t-статистика имеет распределение Стьюдента с n – 2 степенями свободы. Найденное значение t = 15,501сравнивается с критическим значением ta,n при n = n – 2 = 15-2 = 13 степенях свободы (приложение А). В нашем случае ta,n = t a=0.05, n=13 = 1,771. Так как расчетное значение 15,501 по абсолютной величине превосходит табличное 1,771 для заданного уровня значимости, то нулевая гипотеза H0 о линейной независимости двух с. в. отклоняется.










Последнее изменение этой страницы: 2018-04-12; просмотров: 193.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...