Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Методы математической статистики при обработке данных опытов и наблюдений




 

4.4.1 Первичная обработка статистических данных: группировка, расчет средних, коэффициентов вариации, построение гистограмм

 

Число значений принадлежащих одной и той же переменной (показа-телю) может измеряться единицами, десятками, сотнями и даже тысячами.

Методами обобщения данных являются группировка и расчет сводных показателей по совокупности в целом и по выделенным группам. Группиров-ка всегда отвечает поставленной задаче и представляет собой выделение единиц в заданном смысле. Группировки могут производиться по количе-ственным и качественным признакам.

На основе статистического материала можно определить важнейшие характеристики исследуемого показателя (признака) явления или процесса: математическое ожидание, дисперсию, корреляционные моменты. Однако надо помнить, что любое значения искомой характеристики, вычисленное на основе ограниченного числа опытов или наблюдений, всегда будет содержать элемент случайности. Такое приближенное значение называется оценкой па-раметра. Например, оценкой для математического ожидания может служить среднее арифметическое.

К оценкам параметров а предъявляют три требования:

1. Оценка должна быть состоятельной, т.е. при увеличении числа опы-тов или наблюдений приближаться а точному значению параметра а;

2. . Оценка должна быть несмещенной, т.е. математическое ожидание: М[а]=a.

Здесь а - оценка параметра, а – точное значение параметра. Другими словами а не должно содержать систематической ошибки;

3. Оценка должна быть эффективной, т.е. иметь минимальную диспер-сиюD[а]=min.

В ряде случаев требуется не только вычислить оценку параметра, но и оценить его точность и надежность. Для этого, кроме точечной оценки вы-числяют ее доверительный интервал и доверительную вероятность.

Пусть для параметра а получена из опыта (наблюдения) несмещенная оценка а. Необходимо оценить возможную при этом ошибку. Назначим не-

которую достаточно большую вероятность (                                              ) такую, что событие в вероятностью b можно считать практически досто-

верным и найдем e для которого

P(a -a <e)=b.

Это равенство означает, что с вероятностью b неизвестное значение


32

 

параметра попадает в интервал

Ib =(a -e; a +e).

Интервал Ib называется доверительным интервалом, а


 

b - довери-


тельной вероятностью. Ниже приведены формулы статистических характе-ристик и их состоятельные, несмещенные оценки, а также доверительные ин-тервалы.

 

Математическое ожидание

Математическим ожиданием называется сумма произведений всех воз-можных значений изучаемого показателя (признака) на вероятности этих

значений.

Формула точного значения: mx =åp xi ,

здесь i - вероятность наблюденного значения xi исследуемой величины X.

 

Оценка по данным наблюдений: m = n i , где n - количество наблюдений (опытов).

Доверительный интервал: Ib =(m-tb ~;m+tb ~).

Для вычисления Ib задается доверительная вероятность b. Затем по

таблице функции

argФ*æ1+b ö,

 

где Ф* - функция нормального распределения с m=0, s=1, находят t , соответствующее заданному b.

Примечание. argФ (x) - функция обратная Ф*, т.е. такое значение

аргумента, при котором нормальная функция распределения равна х. Формула нормального распределения:

Ф (x)= 1  òe-t2 2dt. -¥

 

sm = D/n - среднеквадратическое отклонение.

Коэффициенты вариации

Центральным моментом порядка s называется

ms =åp (xi -mx)s

Момент второго порядка – дисперсия. Характеризует разбросанность изучаемой величины около ее математического ожидания.

Формула точного значения: Dx =åp (xi -mx)2 .


33

 

Оценка по данным наблюдений: Dx = å(xi -mx)2 . Доверительный интервал: Ib =(D-tbsD;D+tbsD ).

Здесь sD = n-1D.

 

Пример 4.1 Произведено 20 опытов над величиной Х. Требуется найти оценку m и доверительный интервал, соответствующий доверительной ве-роятности

 

 

РЕШЕНИЕ

 

m = 20i =10,780;          D=0,064;       sm = D/n=0,056.

 

Из таблицы функции

argФ*æ1+b ö по b=0.8 определяем значение t= 1,282. Довери-

 

тельный интервал для математического ожидания:

Ib =(m-tbs~;m+tbs~)= (10,789-1.282*0,056; 10,789+1.282*0,056) = (10,712; 10,856).

 

Пользуясь методом доверительных интервалов можно решить вопрос: каково должно быть число опытов n для того, чтобы с вероятностью

ожидать, что ошибка вычисления параметра не превзойдет заданного значе-ния.

 

Эффективным приемом «свертывания» информации, представления ее в компактном наглядном виде является построение гистограммы.

 

1. Весь диапазон наблюдений по данному признаку надо разделить на интервалы и подсчитать количество значений m , приходящихся на каждый i-й интервал. Это число надо разделить на количество опытов n. Получаем

 

частоту pi = ni для каждого интервала (разряда).

Число интервалов к может быть найдено по правилу Старджеса: .

При n< 1000 cоотношения между n и к выглядят следующим обра-зом:


 

n 20   30   70 к 5   6   7


34

 

150 300 500 1000 8    9   10 11


 

2. Частоту каждого разряда разделить на его длину и полученное чис-ло взять в качестве высоты прямоугольника.








F(х)

 

а                                      в         х Рисунок 4.1 – График гистограммы

 

Гистограмма является приближением закона распределения показателя как случайной величины. Она может быть использована для имитации все-возможных значений показателя (метод Монте-Карло), что имеет особое зна-чение для имитации маловероятных, но возможных значений. Закон распре-деления является наиболее строгим обоснованием для сглаживания данных наблюдений, в том числе временных рядов.

По виду гистограммы можно сделать (или отвергнуть) предположение о нормальном распределении исследуемого показателя. Нормальность рас-пределения часто является необходимым условием корректного использова-ния различных статистических методов. Для проверки обоснованности до-пущений о нормальном распределении (а также возможности аппроксимации другими законами) существует большая группа так называемых критериевсогласия.  Наиболее часто в качестве такого критерия используется критерий Пирсона c2.

 

 

4.4.2 Определение производственных функций (корреляционный и регрессионный анализ)

 

Производственные функции – математические выражения, связыва-ющие переменные величины значений факторов со значением результатив-ного показателя.

Производственные функции применяются в различных областях науки. Всюду, где необходимо использовать количественных методы для решения задач тех отраслей науки, которые непосредственно с математикой не связа-ны (экономика, сельское хозяйство, мелиорация, почвоведение, лесное хо-зяйство).

В общем случае производственную функцию можно записать в виде:


35

 

Y=f(x1,x2,...,xk), где Y – результативный показатель;

xi (i=1,2,...,k) – влияющие на результативный показатель факторы. Функции f могут быть различными – одно- и многофакторными, ли-

нейными и нелинейными. В качестве факторов xi (i=1,2,...,k) берутся те, которые получают конкретное количественное выражение как показатели. Они характеризуют природно-климатические условия, ресурсы изменяются с течением времени и по территории.

Ставится задача – выявить количественную меру влияний одного или нескольких факторов на результативный показатель. Закономерность связи между факторами проявляется как тенденция, нарушаемая множеством слу-чайных воздействий. Однако во всех случаях при достаточно большом числе наблюдений удается обнаружить скрытую закономерность, которая в сред-нем характеризует искомые параметры взаимосвязи.

При исследовании взаимосвязей между факторами приходится решать следующие задачи:

1. Определение существования связи; определение количественной ме-ры связи (корреляционный анализ).

2. Определение аналитической формулы связи; определение надежно-сти найденной закономерности (регрессионный анализ).

 

Корреляционный анализ

 

Задачу определения количественной меры связи между факторами и результативным показателем производства решают при помощи корреляци-онного анализа. При этом результативный показатель и влияющие на него факторы интерпретируются как система случайных величин, а их наблюден-ные значения как выборки.

Целью корреляционного анализа является:

а) выдвижение гипотезы о существовании зависимости факторов и ре-зультативного показателя;

б) установление тесноты зависимости между фактором и результатив-ным показателем путем расчета оценки коэффициента корреляции r (т.е. значения коэффициента корреляции, вычисленного по ограниченной выбор-ке) или корреляционного отношения           ;

в) определение вида зависимости (линейная или нелинейная).

Оценка коэффициента корреляции между двумя факторами или факто-

ром и показателем вычисляется по формуле

( i -mx)(y -my)

r = å(x -mx)2 å(y - my)2 , i  i

где i, yi – соответственно значения фактора и результативного пока-


36

 

зателя;

mx,my средние арифметические значения фактора и результативного

показателя производства.

При r близком к ±1 имеет место тесная линейная зависимость меж-

ду показателем и фактором. Для независимых случайных величин коэффици-ент корреляции        . Если связь между показателями существенно отлича-

ется от линейной, то не пригоден в качестве меры связи. Тесноту криво-линейной зависимости Y = f (x) определяет корреляционное отношение.

Для вычисления корреляционного отношения h значения независимо-

го показателя x располагают в возрастающем порядке и разбивают весь ряд наблюдений на 4-7 групп. Затем определяют групповые средние yxj, соот-ветствующие каждой фиксированной группе по x.

 


 

 

h =


å(y -my)2 -å(y - yx, j)2

 i                            i                      

(y -my)2 i


 

Корреляционное отношение принимает значения 0<h<1. При h=1

имеет место нелинейная функциональная связь между показателями, при h=0 показатели не коррелированы. Если r и h имеют достаточно близкие

 

значения, то целесообразно вычислить величину e =h2 -r2.

Если ne >2, то гипотезу о нелинейности связи принимают, иначе связь приближенно считают линейной

Пример 4.2 Вычислить корреляционное отношение для 10 наблюдений диаметра деревьев дуба и объемом.

 

РЕШЕНИЕ

Данные наблюдений были сгруппированы по диаметру(м) деревьев. За-тем были рассчитаны общая и групповые средние, квадраты отклонений от общей и групповых средних. В таблице приведены результаты расчетов

Таблица4.1 – Порядок расчета корреляционного отношения

Х, м (диа- Уi , м3     Номер Групповая                   2                           2 (диа-    (объем)  группы  средняя

метр)

0.1        0.14       Х1    y =0,12     0.0004              0.3249 0.1        0.10                                                  0.0004              0.3741

0.2       0.28     Х2   yx2 =0,29   0.0010           0.1849


37

 

Продолжение таблицы 4.1

 


0.2        0.35 0.2        0.24

0.3       0.90     Х3 0.3   0.80

0.3       0.70

0.4        2.0      Х4 0.4   1.6

-     my =0.71 -


 

yx3 =0,80

 

 

yx4 =1.8

 

-


0.0036 0.0025 0.0100 0.0000 0.0100 0.0400 0.0400

å(yi -yxi )2= 0.1070


0.1303 0.2218 0.0357 0.0079 0.0001 1.6615 0.7903

å(yi -my )= 3.7315


 

 


 

 

h =


å(y -my)2 -å(y - yx, j)2

 i                            i                      

(y -my)2 i


 

 

0.9713» 0.98


 

Таким образом, по данным наблюдений между диаметром и объемом деревьев существует тесная нелинейная зависимость.

 

При анализе взаимосвязей нескольких факторов и показателей вычис-ляют корреляционную матрицу

 

  Y X1 X2 … … … Xk
Y 1 rY,X1 rY,X2 … … … rY,Xk
X1   1 rX1,X2 … … … rX1,Xk
X2     1 … … … rX2,Xk
… …         1   …
Xk         1

 

Регрессионный анализ

 

Если значение коэффициента корреляции или корреляционного отно-шения указывает на существование достаточно тесной связи между фактором и результативным показателем производства, то на следующем этапе стати-стического анализа требуется определить аналитическую форму связи. Для решения этой задачи используется регрессионный анализ.

Прежде всего, надо установить какова общая форма зависимости

Y=f(x1,x2,...,xk). Наиболее часто в регрессионном анализе используются функции: линейная, логарифмическая, степенная, экспоненциальная, квадра-тическая. Приведем несколько примеров вида многофакторных регрессион-ных моделей.


38

 

Линейная:      Y=а0 +а1x1 +а2x2 +...+акxk . Степенная:                        Y=а0 x1x2 ...xk.

Для нахождения параметров аi (i=1,2,…,k) степенную функцию приходится предварительно прологарифмировать:

lnY=ln(а0)+а1 ln(x1)+а2 ln(x2)+...+аn ln(xk).

Полином: Y=а0 +а1x1 +а2x2 +...+аnxk +а11 x1 +а12 x2 +…+а1k xk +а21 x1 x2 +……….

Для нахождения значений числовых параметров a0,a ,a2,...ak ис-пользуется метод наименьших квадратов. Этот метод позволяет так выбрать значения параметров, чтобы прямая Y=а0 +а1x1 +а2x2 +...+аnxk наилучшим образом отражала данные статиcтических наблюдений. При этом сумма квадратов отклонений наблюденных значений результативного пока-зателя yi от вычисленных по уравнению регрессии yi – минимальна

SY2 =å[y - f(x )]2 Þmin.

В случае, если взаимосвязь между фактором и результативным показа-телем аппроксимируется линейной функцией:

Y=а0 +а1x,,

минимум SY при коэффициентах регрессии, которые являются реше-

нием системы линейных уравнений:

na0 +a åxi =åyi

a0åxi +a åxi2 =å( yixi ), Где n – число наблюдений.

Чтобы оценить погрешность аппроксимации регрессионной зависимо-стью Y = f (x) статистической связи результативного показателя от факто-

ров производства вычисляют среднюю относительную ошибку: d =æ1× n                                      ö×100,

è i=1            ø где n – число данных в выборке.

Она показывает: на сколько процентов (в среднем) значения yi, вы-численные по уравнению регрессии, отличаются от фактических значений показателя yi.

 

Проверка адекватности регрессионной модели

 

Для проверки значимости коэффициентов регрессии ao и aj опреде-

ляют их доверительные интервалы

a0 =a0 ±tpsa0,   sa0 =s / n


39

 

aj =aj ±tpsaj, saj =s / å(xj -mxj)2 , j = 1,2, … ,k,

 

где ao и aj – истинные значения коэффициентов регрессии, а ao и aj - их приближенные значения, найденные на основании ограниченной вы-

борки;

 

s= n-2 – стандартная ошибка регрессии;

tp =tp( ) – критерий Стьюдента, значение которого определяется из статистических таблиц [7] по количеству степеней свободы (n = n-2) и уров-ню значимости p=0,05. Такая величина уровня значимости означает, что

риск неверного вывода относительно значимости коэффициентов регрессии составляет 5%.

На практике коэффициент регрессии считают незначимым (т.е. равным нулю), если его доверительный интервал включает число “0”.

Значимость уравнения регрессии в целом определяют по критерию Фишера: если

å(y -my)2 /k

F =    i=1                               £ F (n-k -1), å(y - y )2 /(n-k -1)

i=1

то уравнение незначимо, в противном случае – значимо. Здесь Fp(n-k -1) – табличное значение критерия Фишера с k (число факторов) и n-k -1 степенями свободы, соответствующее уровню значимости  p.

Если уравнение незначимо, это означает, что найденная нами зависимость не дает никаких преимуществ в точности по сравнению с описанием показателя производства его средней арифметической.

Чтобы оценить качество модели, т.е. насколько она соответствует дан-ным исходной информации, вычисляют коэффициент детерминации


 

 

где S2Y =å(y -my)2 i


R2 = S2Yx , Y

– сумма квадратов отклонений фактических


значений результативного показателя от его среднего значения;

S2Yx =å(y -my)2 – сумма квадратов отклонений вычисленных по

i

уравнению регрессии значений результативного показателя от его среднего


40

 

значения (регрессионная сумма квадратов).

Чем лучше регрессионная модель описывает изучаемую зависимость, тем ближе к единице коэффициент детерминации. При высоком значении ко-эффициента детерминации найденную модель можно использовать для про-гноза.

 

Анализ остатков

 

Фактические значения результативного показателя yi можно пред-

ставить в виде:

yi = yi+ ei.

Здесь ei - значение случайной ошибки  в i- м наблюдении (оста-

ток):

ei = yi - yi.

При проведении регрессионного анализа относительно  i  принята предпосылка, что ei - независимые нормально распределенные величины с

нулевым средним и дисперсией s2 постоянной для всех наблюдений. По-этому, если модель подобрана правильно, то эти предпосылки должны под-твердиться, что и является основной целью анализа остатков.

Анализ остатков, полученных для различных моделей, позволяет вы-брать наилучшую модель. Основные решаемые вопросы:

1. Подтверждение нормальности распределения остатков;

2. Проверка независимости остатков (проверяется хотя бы отсутствие автокорреляции остатков).

Нормальность распределения проверяется по критерию c2, который вычисляют по формуле:

2   r (nj -nj )выч    j=1 nj

где nj и nj - соответственно частоты разрядов теоретической и вы-численной гистограммы e;

r – количество разрядов в гистограмме.

В известных статистических таблицах находят табличное значение c2 по количеству степеней свободы k=r-2 и уровню значимости a.

Если                          c2выч< c21-a(k),

то закон распределения остатков принимают нормальным.

Отсутствие автокорреляции остатков определяют по статистике Дар-бина-Уотсона DW:


41

 

DW = å(ei -ei-1 )2 . i

DW учитывает только автокорреляцию первого порядка. При автокорреляция отсутствует (желательная ситуация).


 

DW»2


 

Прогноз результативного показателя

 

Точечный прогноз результативного показателя y¢ получается при под-становке значения фактора x¢в уравнение регрессии y¢= f(x¢). Однако, за-

данной надежностью обладает только интервальный прогноз y = y ±tp y,

где sy в случае одномерного уравнения регрессии вычисляется по формуле

 


 

sy =s


1 (x¢-m )2 n å(x -mx)2

i


Чем меньше задаваемый уровень значимости, тем выше надежность прогноза и больше величина критерия Стьюдента tp, а это означает, что до-верительный интервал прогноза будет шире.

Например, при уровне значимости p=0,05 и общем числе статисти-ческих данных n=30 (количество степеней свободы n = n-2 = 28) табличное

значение критерия Стьюдента

t0,05(28)=2,05,

а при уровне значимости p=0,01 t0,01(28)=2,76.

В первом случае с вероятностью P=1-0,05=0,95 (95%) можно утверждать, что прогнозируемое значение показателя будет принадле-

жать отрезку

y¢-2,05 y £ y£ y¢+2,05 y,

во втором случае с надежностью P=1-0,01=0,99 (99%) прогнозируе-

мое значение показателя находится в области

y -2,76 y £ y£ y +2,76 y.

 

4.4.3 Выполнение корреляционного и регрессионного анализа с использованием MS Excel

 

Для расчета корреляционной матрицы на персональном компьютере можно использовать табличный редактор MS Excel, являющийся одной из


42

 

составляющих пакета программ Microsoft Office. Microsoft Office – наиболее популярный как во всем мире, так и в России пакет программ. Для того, что-бы оформить табличный документ необходимо выполнить следующую по-следовательность действий:

1 Открыть MS Excel.

2 Выделить интервал ячеек на первом листе книги и установить тип шрифта (Times New Roman), его размер (14 пт), а также масштаб изображе-ния.

3 Ввести заголовок, “головку ” таблицы данных наблюдений результа-тивных показателей и факторов.

4 Отформатировать таблицу. Для этого выделить интервал ячеек оди-накового формата и выполнить действия:

 

 

Формат Ячейки Выбрать тип            ОК формата «числовой»

 

5 Ввести данные в ячейки таблицы: отметить нужную ячейку; набрать число или текст; нажать клавишу Enter.

6 Присвоить файлу имя и сохранить файл в нужной папке.

Для расчета корреляционной матрицы используется стандартная функция КОРРЕЛ. В свободное поле листа следует ввести заголовок «Кор-реляционная матрица». Ниже заголовка обозначить строки и столбцы корре-ляционной матрицы

 

  Y X1 X2 … … … Xn
Y 1        
X1   1      
X2     1    
… …         1  
Xn         1

В ячейку результата ввести знак = , затем выполнить последователь-ность действий:

 

Вставка fx    Выбратьфункцию     Задатьаргументы    ОК КОРРЕЛ
 

 

В качестве аргументов вводятся диапазоны ячеек расположения наблюденных значений двух заданных факторов или фактора и показателя. Диапазон записывается в виде двух граничных адресов области, разделенных : .

После вычисления корреляционной матрицы сделать выводы о влия-нии факторов на результативный показатель и взаимной зависимости факто-


43

 

ров.

Для определения коэффициентов линейных производственных функ-ций целесообразно воспользоваться стандартной программой MS Excel ЛИНЕЙН, реализующей метод наименьших квадратов. Эта программа вы-дает таблицу результатов в следующем виде:

- для одномерного уравнения регрессии

а1 а0
σа1 σа0
R2 σy
F df
SSYx SSОСТ

- для двухмерного уравнения регрессии

а2 а1 а0
σа2 σа1 σа0
R2 σy Н/Д#
F df Н/Д#
SSYx SSОСТ Н/Д#

Обозначения:

аi (i=0,1,2) – коэффициенты уравнения регрессии;

σаi (i=0,1,2),σy  стандартные ошибки коэффициентов регрессии и за-висимой переменной;

R2 – коэффициент детерминации;

F,df – критерий Фишера и количество степеней свободы для нахожде-ния его табличного значения;

SSYx,SSОСТ – соответственно регрессионная и остаточная сумма квад-ратов.

Определите производственные функции (одномерные и двухмерные), описывающие влияние факторов на результативный показатель, а также функции для взаимозависимых факторов.

Для расчета коэффициентов уравнения регрессии и его характеристик следует выполнить:

 

 


Выделить область  fx  ЛИНЕЙН результатов


 

Задать     Ctrl+Shift+Enter аргументы


 

 

В качестве аргументов функции ЛИНЕЙН задаются:

- для зависимой переменной – интервал ячеек ее фактических значе-ний;

- для независимых переменных интервал ячеек состоит из адреса верх-ней левой ячейки и адреса нижней правой ячейки области значений данных факторов. Адреса ячеек разделяет : . Таким образом, интервал задается ад-ресами крайних ячеек на диагонали области значений факторов;

– значение Константа, равное истина; – значение Стат, равное истина.


44

 

После завершения расчетов на компьютере выпишите все найденные Вами зависимости, подставив числовые коэффициенты в соответствующие уравнения. Для проведения анализа найденных производственных функций выпишите характеристики соответствующих уравнений регрессии.

Далее следует определить значимость коэффициентов и их довери-тельные интервалы:

1. Определите табличное значение критерия Стьюдента. Исходя из вы-численных характеристик регрессионных зависимостей, вычислите 95%-е доверительные интервалы коэффициентов и сделайте выводы об их значимо-сти.

2. Вычислите среднюю ошибку и коэффициент вариации для каждой производственной функции.

Для вычисления средних значений зависимых переменных в производ-ственных функциях воспользуйтесь стандартной функцией СРЗНАЧА, предварительно выделите ячейку, где будет расположен результат:

 

 


fx      Выбратьфункцию СРЗНАЧА


 

Задатьаргумент:    ОК Значение1


 

 

В качестве аргумента Значение 1 следует задать интервал ячеек распо-ложения фактических значений переменной.

3. Проанализируйте значения коэффициентов детерминации и вариа-ции, после чего сделайте вывод о пригодности каждой производственной функции для анализа и прогноза.

4. Запишите вывод о темпах прироста результативного показателя в связи с изменением различных факторов.

Расчет прогнозных значений результативных показателей проводится в следующей последовательности:

1. Вычислите точечный прогноз результативных показателей, подста-вив в найденные значения производственных функций значения факторов.

2. Для одномерных производственных функций найдите 95%-е довери-

тельные интервалы прогноза:

y = y¢±tpsy,

где y¢– точечный прогноз;

sy в случае одномерного уравнения регрессии вычисляется по форму-

 

1 (x¢-mx)2 n    (x -mx)2

i

Для облегчения вычислений среднего значения фактора mx и элемента


45

 

å(x -mx)2 i

можно использовать стандартные функции СРЗНАЧА и КВАДРОТКЛ. Рас-чет функции КВАДРОТКЛ выполняется аналогично расчету СРЗНАЧА. Аргументом функции КВАДРОТКЛ является параметр Число 1, значением которого является интервал ячеек расположения фактических значений фак-тора Х.

 

4.4.4 Дисперсионный анализ

 

Некоторые из факторов, меняющихся в эксперименте или наблюдении, могут быть качественными (тип деревьев, тип леса, цвет желудей), другие количественными. В зависимости от соотношения между количественными и качественными факторами применяют один из методов: регрессионный, дис-персионный, ковариационный.

В регрессионном анализе подход количественный, в дисперсионном все факторы рассматриваются как качественные; в ковариационном часть факторов изучают как количественные, другую – как качественные.

В дисперсионном анализе можно рассматривать и количественные пе-ременные, но заключение о влиянии факторов делают на качественной осно-ве: проверяют гипотезу о влиянии данного фактора при выбранном уровне доверительной вероятности.

Дисперсионный анализ может быть одно- и многофакторным. Рассмотрим однофакторный анализ. Изучается зависимость величины

Х от меняющегося фактора А, уровни которого обозначены Аi (таблица 4.2).

 

Таблица 4.2- Исходные данные для проведения дисперсионного анализа

 


Уровни фактора Аi А1

А2

 

…Аi

 

…Ак


Результаты измерений х11 х12  х1j …х1,m1

х21 х22  х2j …х2,m2

 

…………………хi1 хi2  хij …хi,mi

 

……………………хк1 хк2  хкj …хк,mk


Среднее по группе

X1 X2

 

          ………..        

Xi

 

 

         ………..        

Xk


 

Здесь i=1,2,…k - уровень фактора А; i номер наблюдения;

хij - наблюдение;

n – общее количество наблюдений.


46

 

Основой дисперсионного анализа является формула: S02 = SM2 + 2,

где S02 = åå( xij - X )2 , X- общая средняя;                 (4.1) 2 =ååmi( Xi - X )2 ;                                                      (4.2) 2 =åå( xij - Xi )2 .                                                             (4.3)

Учитывая (4.1)-(4.3), можно записать: D = (n-1) - общая дисперсия;

 = (k -1) - межгрупповая дисперсия;  = (n-k) - внутригрупповая дисперсия.

Допустим хij - значения нормально распределенной случайной вели-чины Х, тогда вычислим критерий Фишера:

F(k-1,n-k)= (k -1). В (n-k)

 

Далее выбираем доверительную вероятность b и по таблице значе-ний критерия Фишера находим Fтабл, соответствующее b; и степеням свободы              =k-1; =n-k.

Если F <Fтабл, то гипотезу об отсутствии влияния фактора А при-

нимают, то есть считают А, влияющим несущественно.

Если F > Fтабл - А оказывает существенное влияние на результаты опытов.

 

 

Пример 4.3 Определить влияние высоты древостоя (Н, м) на видовое число ( f ×1000).

Разобьем данные наблюдений на группы (Hi ) и определим часто-ты попадания в каждую группу (mi ) и средние по группе ( fi ) (таблица 4.3)


47

 

Таблица4.3 – Группировка данных наблюдений, групповые средние

 

 


k =8;n=40.

 

Общая средняя:


 

 

f = 460.

 = (k -1)=145877 =2084;

 = (n-k)=2160832=675


Вычисленное значение критерия Фишера: F(7,32)=3.09.

Назначим доверительную вероятность b=0.95. Для нее, учитывая

степени свободы, по таблице определим Fтабл(7,32)= 2.3.

Получили F > Fтабл, поэтому можно сделать вывод о том, что средняя высота древостоя влияет на видовое число.

 

 

Контрольныевопросы

 

 

1. Дайте определение статистической совокупности. Назовите три основных стадии статистического исследования.

2. Из каких элементов состоит программа статистического наблю-дения? В чем заключаются организационные вопросы статистического наблюдения?

3. Дайте определения математического ожидания и дисперсии изуча-емого показателя (признака). Как построить гистограмму признака?

4. Что такое производственная функция? Для чего предназначен кор-реляционный анализ? регрессионный анализ?

5. Какие задачи решаются в корреляционном анализе? Как определить существование и тесноту линейной или нелинейной статистической связи между факторами?


48

 

6. Приведите примеры наиболее часто используемых функций для опи-сания зависимостей между факторами и результативным показателем. Какой метод используется для вычисления числовых параметров этих зави-симостей, в чем его суть?

7. Как доказать адекватность найденной в регрессионном анализе мо-дели зависимости результативного показателя от факторов?

8. Как вычислить точечный и интервальный прогноз результативного показателя по регрессионной модели?

9. Какой тип факторов рассматривается в дисперсионном анализе? Для чего предназначен дисперсионный анализ?

10. Запишите основную формулу дисперсионного анализа. В каком слу-чае принимают гипотезу о существенном влиянии фактора на показатель?


49

 

















































ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА

 

Основные определения

 

Большинство научных исследований связано с экспериментом. Он про-водится в лабораториях, на производстве, на опытных полях и участках, в области машинной имитации.

В экономике эксперименты могут быть реальные (изучение поведения людей в тех или иных условиях), модельные (изучение так называемой «ис-кусственной реальности») и человеко-модельные, смешанные, при которых изучается поведение людей в искусственных условиях (например, деловые игры).

Одним из путей повышения эффективности исследований является применение математических методов, построение математической теории планирования эксперимента.

Планирование эксперимента – это процедура выбора числа и усло-вий проведения опытов, необходимых и достаточных для решения постав-ленной задачи с требуемой точностью.

При этом существенно следующее:

- стремление к минимизации общего числа опытов;

- одновременное варьирование всеми переменными, определяющими про-цесс, по специальным правилам – алгоритмам;

- использование математического аппарата, формализующего многие дей-ствия экспериментатора;

- выбор четкой стратегии, позволяющей принимать обоснованные решения после каждой серии экспериментов.

Задачи, для которых может использоваться планирование эксперимен-та, чрезвычайно разнообразны. Поиск оптимальных условий, построение ин-терполяционных формул, выбор существенных факторов, оценка и уточне-ние констант теоретических моделей, выбор наиболее приемлемой, из неко-торого множества гипотез о механизме явлений – вот примеры задач, при ко-торых применяется планирование эксперимента.

Для описания объекта исследований удобно пользоваться представле-нием о кибернетической системе, показанной на рисунке 6.1. Такую киберне-тическую схему называют «черным ящиком». Для проведения эксперимента необходимо иметь возможность воздействовать на поведение «черного ящи-ка». Все способы такого воздействия называются факторами (x1, x2, …, xk).

При решении поставленной задачи будем использовать математиче-скую модель объекта исследования - это уравнение, связывающее выходной параметр (показатель) с факторами:

y= f(x,x2,...,xk ).

Такая функция называется функцией отклика.

у - выходной параметр, выражающий реакцию на воздействие факторов. Если исследователем решается задача поиска оптимальных условий для изу-


50

 


чаемого процесса, то у

 

x1 x2


 

является параметром оптимизации.

 

y1 y2






Черный

…                ящик                         …

 

xk                                                                                     ym

 

 

yi (i=1,2,….k) – выходные числовые параметры; Рисунок 6.1 – Схема черного ящика

 

Выбор вида функции отклика. Задачи планирования эксперимента

 

Параметры оптимизации бывают экономическими, технико-экономи-ческими, технико-технологическими, статистическими, психологическими и т.д. Параметр оптимизации должен быть количественным, имеющим физи-ческий смысл, существующим для всех различимых состояний.

Часто в качестве параметра оптимизации строят обобщенный показа-тель, количественно определяющий функционирование исследуемого объек-та с многими выходными параметрами. Чтобы объединить несколько откли-ков, вводят для них единую метрику (так как каждый выходной параметр имеет свой физический смысл, свою размерность). Единого правила комби-нирования исходных частных откликов в обобщенный показатель не суще-ствует. Здесь можно идти различными путями.

Основными требованиями к факторам являются управляемость и одно-значность. Управлять фактором – это значит установить нужное значение и поддерживать его постоянным в течение опыта или менять по заданной про-грамме. В этом состоит «активный» эксперимент. Требования к совокупно-сти факторов: совместимость и отсутствие линейной корреляции. Факторы могут быть количественными и качественными.

Каждый фактор может принимать в опыте одно или несколько значе-ний. Такие значения называются уровнями. Фиксированный набор уровней факторов является условиями проведения одного опыта и определяет одно из

возможных состояний «черного ящика». Число опытов в этом случае равно рк, где к - число факторов; р – число уровней. Количество опытов, постав-

ленных для всех факторов и всех уровней, может оказаться неимоверно большим. В этом случае применение планирования экспериментов позволяет сократить число опытов и вместе с тем решить поставленную задачу.

Перед началом планирования необходимо выбрать вид функции

f(x1, x2,…,xk). Следует так провести эксперименты, чтобы в результате по-лучить оценки численных констант этой функции. Чтобы выбрать функцию,


51

 

приходится сделать некоторые предположения относительно изучаемого процесса и свойств функции. Например, функция должна быть непрерывной, гладкой и иметь единственный оптимум. Модели могут быть разные. Часто функцию отклика представляют в виде алгебраического полинома. Степень полинома подбирают для каждой конкретной модели. Например, для двух-факторной модели полином первой степени:

y =b +bx1 +b2x2 . Полином второй степени:

y =b +bx1 +bx2 +b 2xx2 +b 1x 2 +b 2x22. Полином третьей степени:

y =b +bx1 +b2x2 +b 2xx2 +b 1x 2 +b 2x22 +b 12x 2x2 +b 22xx22 +

+ 111 13 + 222x23.

Эксперимент нужен для того, чтобы найти численное значение коэф-фициентов полинома. Поэтому чем больше коэффициентов, тем большее число опытов окажется необходимым.

Решение задачи оптимизации условий проводят по шагам, то есть вы-полняют короткие (насколько возможно) серии опытов, по их результатам строят математическую модель. По модели определяют градиент (направле-ние наискорейшего возрастания функции) и на следующем шаге ставят опы-ты только в этом направлении. Получается циклический процесс, который заканчивается при попадании в область, близкую к оптимуму.

Кроме задачи оптимизации часто решают задачу построения интерпо-ляционной модели. В этом случае по модели стремятся предсказать результат с требуемой точностью во всех точках заданной области.

 

5.3 Полный факторный эксперимент типа

 

Первой серии опытов предшествует этап неформальных решений. Оцениваются границы областей определения факторов (область факторного пространства), задаваемые либо технико-экономическими соображениями, либо конкретными условиями проведения процесса. Установление локальной области факторного пространства связано с анализом априорной информа-ции о функции отклика.

Сначала определяются основные уровни и интервалы варьирования для каждого фактора. Основной (нулевой) уровень эксперимента – многомерная точка в факторном пространстве, задаваемая комбинацией уровней факторов. Построение плана эксперимента сводится к выбору экспериментальных то-чек, симметричных относительно основного уровня. Для каждого фактора определяются два уровня, на которых от варьируется в эксперименте. Уровни факторов изображаются двумя точками на координатной оси, симметричны-ми относительно основного уровня (0). Один из уровней – верхний (+), дру-гой – нижний (-). Уровни факторов не должны быть меньше ошибки фикси-


52

 

рования уровня и не должны выходить за область определения.

Эксперимент, в котором реализуются все возможные сочетания уров-ней, называется полным факторным экспериментом. Если число уровней равно двум, то это полный факторный эксперимент типа  (количество опы-тов).

Условия эксперимента представляют в виде таблицы – матрицы плани-рования, где строки соответствуют различным опытам, а столбцы – значени-ям факторов. Столбец x0 нужен для вычисления коэффициента b0  в функ-ции отклика.

Таблица 5.1 – Матрица планирования эксперимента 22

Номер опыта x0 x1 x2 у
1 +1 -1 -1 y1
2 +1 +1 -1 у2
3 +1 -1 +1 у
4 +1 +1 +1 у4

 

Свойства матриц в полном факторном эксперименте: симметричность относительно центра, условие нормирования, ортогональность, ротатабель-ность.

Симметричность означает, что алгебраическая сумма элементов век-тор-столбца каждого фактора равна нулю:

 

åx =0, j =1,2,...,k номер фактора. i=1

Условие нормирования сумма квадратов элементов каждого столбца равна числу опытов:

 

åx2jin. i=1

Матрица планирования должна быть ортогональна, т.е. произведение вектор-столбцов факторов равно нулю:

 

i=1xjixui =0,j,u=0,1,2,...,k;j ¹u.

Четвертое свойство называется ротатабельностью: точки в матрице планирования подбираются так, чтобы точность предсказания значений па-раметра оптимизации была одинакова на равных расстояниях от центра экс-перимента и не зависела от направления.

Пример 5.1 Составить матрицу планирования полного факторного эксперимента 23

РЕШЕНИЕ

Для построения матриц с числом факторов больше двух удобно поль-зоваться приемом, основанном на переходе от матрицы меньшей размерно-сти к матрице большей размерности. При добавлении нового фактора каж-дая комбинация уровней исходного плана встречается дважды: в сочетании с верхним и нижним уровнями нового фактора.


53

 

Таблица5.2 – Матрица планирования эксперимента 23

Номер опыта x0 x1 x2 x3 у
1 +1 -1 -1 +1 y1
2 +1 +1 -1 +1 у2
3 +1 -1 +1 +1 у3
4 +1 +1 +1 +1 у4
5 +1 -1 -1 -1 y5
6 +1 +1 -1 -1 у6
7 +1 -1 +1 -1 у7
8 +1 +1 +1 -1 у8

Коэффициенты, вычисленные по результатам эксперимента, указывают на силу влияния факторов. В тех случаях, когда эффект фактора зависит от уровня на котором находится другой фактор, говорят о наличии эффекта вза-имодействия. Эффект взаимодействия двух факторов называется эффектом взаимодействия первого порядка. Вообще эффект взаимодействия макси-мального порядка в полном факторном эксперименте имеет порядок, на еди-ницу меньший числа факторов. Полное число всех возможных эффектов, включая b0, линейные эффекты и взаимодействия всех порядков, равно числу опытов полного факторного эксперимента.

По матрице планирования 4.1 можно вычислить четыре коэффициента и представить результаты эксперимента в виде неполного квадратного урав-нения

y=b +bx1 +bx2 +b 2xx2.

Здесь слагаемое b12x1x2 описывает эффект взаимодействия факторов. Чтобы оценить эффект взаимодействия достаточно, пользуясь прави-

лом перемножения столбцов, получить столбец произведения двух факторов (таблица 5.3). С новым вектор-столбцом можно обращаться так же, как с век-тор-столбцом любого фактора. Столбцы x1 , x2                                          задают планирование – по ним непосредственно определяются условия опыта, x0 и x1x2 служат толь-ко для расчета.

Таблица 5.3 – Матрица планирования эксперимента 22 с эффектом взаимодействия

Номер опыта x0 x1 x2 x1x2 у
1 +1 -1 -1 +1 y1
2 +1 +1 -1 -1 у2
3 +1 -1 +1 -1 у
4 +1 +1 +1 +1 у4

 

Чтобы найти число возможных взаимодействий некоторого порядка достаточно воспользоваться формулой

 

Сkm = m!(k-m)!,


54

 

где k– число факторов, m- число элементов во взаимодействии.

Наша цель – найти по результатам эксперимента значения неизвестных коэффициентов модели поверхности отклика. Эти коэффициенты будут найдены по результатам ограниченного числа опытов и поэтому являются выборочными оценками «истинных» (полученных по генеральной совокуп-ности) значений.

Выборочные оценки коэффициентов можно вычислить по формуле: bj = åxji yi .

 

Например,

12 = (+1)y +(-1)y2 +(+1)y3 +(-1)y4 .

 

Из полного факторного эксперимента нельзя извлечь информацию о квадра-тичных членах.

 










Последнее изменение этой страницы: 2018-05-31; просмотров: 200.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...