Обеспечение необходимого объема и случайного состава выборки

⇐ ПредыдущаяСтр 3 из 10Следующая ⇒

В соответствии с исходной экономико-математической моделью исследуемого процесса осуществляют сбор исходной информации и ее предварительную обработку. От тщательности выполнения этого этапа моделирования во многом зависит качество искомого уравнения регрессии.

К исходным данным предъявляют следующие требования:

1) исходные данные должны быть достоверными, так как в противном случае они приведут к ложным корреляционно-регрессионным выводам, опасны искажения, вызванные изменениями цен, изменениями в ассортименте выпускаемой продукции, организационными перестуками и т.д.;

2) исходные данные должны быть однородными. Критикуя земских статистиков за то, что в их работе сравнивались разнородные типы крестьянских хозяйств, В.И.Ленин писал: "и… главной причиной путаницы было то, что сравнивались хозяйства неоднородные, поставленные в различные общественные условия, отличающиеся по самому типу ведения хозяйства" [1, с. 25];

3) совокупность исходных данных должна быть случайной и достаточной по количеству.

Наиболее полно последнее требование может быть реализовано в том случае, если анализу подвергнуть все единицы общей (генеральной) совокупности. В рассматриваемом примере это должна быть вся совокупность станочников механического цеха обследуемого завода. Однако такой анализ практически осуществить невозможно, так как для этого потребуется много времени и труда. Поэтому прибегают к ограниченному числу наблюдений, которое получило название выборки. Для правомерности выборки необходимо, чтобы характеристики ее были достаточно близки по своим значениям к характеристикам генеральной совокупности. Поэтому перед сбором исходных данных решают два вопроса:

1) какое число единиц должно входить в выборку, чтобы по ней можно было делать надежные выводы об изучаемом процессе;

2) из каких именно единиц генеральной совокупности надо составить выборку, чтобы ее можно было рассматривать в качестве представительного образца изучаемой генеральной совокупности.

В математической статистике ответ на первый вопрос дают таблица достаточно больших чисел и номограмма достаточно больших чисел. Таблица достаточно больших чисел (приложение 1) составлена на основании формулы, которая показывает, как достаточно большое число наблюдений (объем выборочной совокупности η) зависит от "степени уверенности" и величины допустимой ошибки ε.

"Степень уверенности" определяется величиной вероятности р, с которой делается соответствующее заключение. Относительно выбора величины р нет какого-либо .решения, одинакового для всех исследований. Чем ближе к единице будет величина рассматриваемой вероятности, тем надежнее будет заключение, В практике научных исследований обычно принимается р = 0,95 или Р = 0,99.

Допустимая ошибка ε устанавливается обычно равной 0,03 – 0,05 (или 3-5 %).

Чтобы по таблице достаточно больших чисел найти число наблюдений, надо задать р и ε. Например, при р = 0,95 и ε = 5 % объем выборки составит 384 наблюдения. Если же по проводившимся ранее исследованиям известна мера изменчивости показателя V[2], то объем выборки приятой же самой величине вероятности р и допустимой ошибке εможет быть найден при помощи номограммы достаточно больших чисел (приложение 2), Она построена для р=0,95, обычно принимаемой в практике научных исследований.

Если V ≤ 10 %, то объем выборки находится по номограмме непосредственно. Зная V и задаваясь ε, проводим мысленную прямую через соответствующие точки двух крайних шкал, тогда точка пересечения мысленной прямой с серединной шкалой даст искомое количество наблюдений. Если V > 10%, то полученное на серединной шкале число нужно умножить на 100, Например, при р = 0,95, ε = 0,05, V = 16 объем выборки составит 39 наблюдений (0,39 * 100).

Нетрудно заметить, что номограмма достаточно больших чисел дает числа значительно меньшие, чем таблица достаточно больших чисел. Это объясняется тем, что номограмма предусматривает небольшую изменчивость признака – менее 50 % [23, с, 22] . Зная, что в проводимом исследовании имеет место малая изменчивость наблюдаемого признака, можно и нужно пользоваться номограммой достаточно больших чисел. Существуют и другие рекомендации к обоснованию необходимого объема выборки [10, с. 189-192].

В том случае, когда нет возможности собрать указанную представительную выборку, следует исходить из имеющегося объема выборки, установив по таблице достаточно больших чисел величину вероятности р и допустимую ошибку ε, которые будут характеризовать надежность последующих выводов.

После определения необходимого объема выборки остается решить второй вопрос: какие именно единицы генеральной совокупности должны войти в выборку. Чтобы выборка правильно отражала свойства общей совокупности, необходимо каждую единицу брать наугад, т.е. случайно. Для этого применяют следующий способ:

1) составляют список всех единиц генеральной совокупности и нумеруют;

2) из таблицы случайных чисел во второй список выписывают, начиная с какого-либо столбца таблицы, какое количество чисел, которое равно количеству наблюдений в выборке [23, с. 492];

3) из составленного первого списка берется число наблюдений, равное объему выборки, соответственно полученным номерам второго описка.

Однако очень часто нет возможности провести выборку указанным способом, поэтому результаты наблюдений, т.е. элементы имеющейся выборки, проверяют на случайность и независимость результатов наблюдений. Такая проверка связана с тем, что применение наиболее употребительных статистических методов корреляционно-регрессионного анализа основано на результатах ряда независимых испытаний, образующих случайную выборку. Случайность выборки интерпретируется как обеспечение равновероятности попадания каждого наблюдения из генеральной совокупности в выборку. Одним из методов проверки имеющейся выборки на случайность является метод серий, основанный на медиане выборки.

Пусть имеется выборка из некоторой генеральной совокупности. Составим из нее ранжированный ряд Определил медиану полученного ряда Me. Затем возвращаемся к исходной выборке и будем вместо каждого значения ставить плюс, если > Me, и минус, если < Ме. Члены выборки, равные Meв этой последовательности плюсов и минусов, опускаются. Полученная последовательность плюсов и минусов характеризуется общим числом серий   и протяженностью самой длинной серии ,где под серией понимается последовательность подряд идущих плюсов или подряд идущих минусов (в частном случае серия может состоять только из одного плюса или одного минуса и ее протяженность тогда будет равна единица). Очевидно, что если выборка случайна, то чередование плюсов и минусов в такой последовательности должно быть более или менее случайным, т.е. эта последовательность не содержит слишком длинных серий. Соответственно общее число серий недолжно быть слишком малым, а протяженность самой длинной серии – слишком большой, т.е. данные характеристики в случайной выборке должны удовлетворять следующим условиям:

                                    (2)

Если хотя бы одно из этих неравенств окажется нарушенным, гипотезу о случайности выборки следует отбросить.

Следует заметить, что в корреляционно-регрессионном анализе участвует не одномерная, а многомерная выборка (в случае парной корреляции – это двумерная выборка). Проверять на случайность выборку по каждой переменной нецелесообразно. Достаточно ограничиться проверкой показателя-функции .

Приведенные, а также все последующие положения теории корреляционно-регрессионного анализа будем рассматривать по следующей исходной экономико-математической модели:

,                                              (3)

где – процент выполнения норм выработки станочников механического цеха;

– законченное образование, классов;

– общий стаж работы, лет;

– возраст, лет,

Исходные данные были собраны в одном из механических цехов Тульского комбайнового завода (таблица 1).

Таблица 1 – Исходная выборка

№ рабо-чего Фамилия и инициалы Процент выполнения норм выработки Законченное образование, классов Общий стаж работы, лет Возраст, лет

1 2 3 4 5 6

1 Лисицын А.И. 200 10 31 52

2 Карлов Г.А. 230 10 26 45

3 Авдошин В.В. 169 10 13 31

4 Толстиков В.Т. 157 4 14 31

5 Архипов В.В. 152 6 22 41

6 Уваров А.К. 168 10 7 25

7 Рубанец А .В, 199 10 24 50

8 Бадаев B.M, 157 8 13 29

9 Морозов О.Т. 169 10 29 51

10 Псарев A.M. 168 10 6 23

11 Савин В.Н. 175 7 37 55

12 Анищенко Р. Д. 204 10 34 53

13 Сергеев А.И. 148 8 5 22

14 Мельников В.Л. 169 9 7 24

15 Жидков В.А. 145 10 5 22

16 Котов Е.0. 240 10 33 50

17 Панкратов С.В. 169 8 16 33

18 Андриец А.К. 170 7 29 46

19 Старов Н.П. 158 8 20 36

20 Ниаков Н.В. 210 10 30 47

21 Козлов М.Е. 175 7 33 51

22 Хворостов В.С. 169 10 5 22

23 Лепиоков П.Ф. 169 10 32 51

24 Шевченко М.И. 169 10 17 34

25 Шанников Г.М. 158 7 10 26

26 Тюрин П.Ф. 181 4 32 52

27 Чугунов А.Д. 168 9 15 33

28 Шибаев В.И. 182 10 31 54

29 Рогаткин Н.А. 158 4 24 55

30 Лысенко В.Д. 145 7 21 43

31 Шанин С.В. 175 8 14 50

32 Бычкин С.Н. 150 7 7 24

33 Тимошин Г.Н. 164 9 10 26

34 Евдокимов Н.А. 220 7 38 55

35 Макаров А.Ф. 145 7 11 28

36 Володин А.В. 159 10 2 19

37 Макаров И.Я. 176 9 24 45

38 Трифилкин В.А. I59 8 11 27

39 Дружинин Б.А, 145 7 31 55

40 Аристархов В.И. 220 4 31 55

41 Шевцов А.С. 145 5 2 24

42 Нехорошез В.М, 149 4 3 23

43 Аядриец В.К. 225 10 21 44

44 Глотов И.С. 176 10 11 27

45 Захаров П.Е. 169 9 4 21

46 Лазуткин В.И. 176 10 16 38

47 Кузнецов Т.К. 192 6 32 50

48 Чикалов С.Н. 149 7 2 22

49 Семенов Н.Г. 186 8 1 21

50 Петрушин В.Д. 175 10 14 30

Примечания: 1.Обследованию были подвергнуты станочники-мужчины.

2. Все рабочие имеют примерно одинаковую квалификацию: 3-й – 4-й разряды.

3. Данные колонок 1, 2, 3 взяты из табеля, 4, 5, 6 – по опросу.

Проверим на случайность выборку показателя . Исходная выборка имеет вид:

200⁺ 230⁺ 169 157^– 152^– 168^– 199⁺ 157^– 169 168^–

175⁺ 204⁺ 148^– 169 145^– 240⁺ 169 170⁺ 158^– 210⁺

175⁺ 169 169 169 158^– 181⁺ 168^– 182⁺ 158^– 145^–

175⁺ 150^– 164^– 220⁺ 145^– 159^– 176⁺ 159^– 145^– 220⁺

145^– 149^– 225⁺ 176⁺ 169 176⁺ 192⁺ 149^– 186⁺ 175⁺

Строим ранжированный ряд в порядке возрастания :

145, 145, 145, 145, 145, 148,149,149, 150, 152, 157, 157,158, 158, 158, 59, 159, 164,168,168, 168, 169, 169, 169,169, 169, 163, 169, 169, 170,175,175, 175, 175, 176, 176,176, 181, 182, 186, 192, 199, 200, 204, 210, 220, 220, 225, 230, 240.

Медиана равна 169, = 25, = 4. Тогда условия (2) запишутся так:

, т.е. 25 > 18;

, т.е. 4<6,64.

Следовательно, выборка случайна, на ее основе можно проводить корреляционно-регрессионный анализ.

Заканчивая основные рекомендации по cбору исходной информации, добавим, что методические вопросы правильного сбора информации, связанные с обеспечением минимального количества ошибок при ее сборе, подробно описаны в ряде работ [10, с.179-189; 15, с. 26-27; 13, гл.13; 18, с. 7-13].

⇐ Предыдущая 1 234 5 6 7 8 9 10 Следующая ⇒

Последнее изменение этой страницы: 2018-05-10; просмотров: 311.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...