Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Как выполнить стратификацию данных




Диаграмма разброса (рассеивания)

Диаграмма разброса (рассеивания) – это инструмент, позволяю­щий определить вид и тесноту связи между парами соответствующих переменных.

Эти две переменные х и у могут относиться:

а) к характеристике качества у и к влияющему на нее фактору х;

б) к двум различным характеристикам качества х и у;

в) к двум факторам х и у, влияющим на одну характеристику качества z.

Для выявления связи между ними и служит диаграмма разброса (рассеивания), которую также часто называют полем корреляции.

Точечный график часто используется для выявления потенциальных связей между двумя переменными, где одну из них можно считать объясняющей переменной, а другую - зависимой. Это дает хорошую визуальную картину отношений между двумя переменными, и помогает при анализе коэффициента корреляции и регрессионной модели. Данные отображаются в виде набора точек, каждая из которых имеет значение одной переменной, определяющей положение по горизонтальной оси, и значение второй переменной, определяющей положение по вертикальной оси.

Точечная диаграмма используется, когда существует переменная, находящаяся под контролем экспериментатора. Если существует параметр, который систематично увеличивается и / или уменьшается при воздействии другого, это называется параметром управления или независимой переменной и обычно наносится по горизонтальной оси. Регулируемая или зависимая переменная обычно откладывается вдоль вертикальной оси. Если не существует зависимой переменной, или переменной может быть нанесена по любой из осей или на диаграмме рассеяния, она отобразит только степень корреляции (а не причинно-следственные отношения) между двумя переменными.

Рис. 1.7. Типичные виды диаграмм разброса [3]:

А – сильная положительная корреляция;

Б – сильная отрицательная корреляция

В – слабая положительная корреляция;

Г – слабая отрицательная корреляция;

Д – криволинейная корреляция;

Е – отсутствие корреляции

 

 

Метод стратификации (расслаивания данных)

Стратификация – один из инструментов качества, предназначенный для выявления какой-либо закономерности в массиве данных за счет их разделения. Стратификация применяется в том случае, когда данные из различных источников сосредоточены вместе и это мешает определить структуру или их системность. Как правило, этот инструмент используют совместно с другими инструментами анализа данных.

Термин стратификация означает – расслаивание. В результате стратификации данные в соответствии с их особенностями разделяются на группы или слои (страты). Для того чтобы проводить расслаивание статистических данных важно правильно определить факторы, по которым будет осуществляться стратификация. Сбор данных должен вестись таким образом, чтобы можно было учесть эти факторы. В противном случае этот инструмент не даст результатов.

Стратификация — процесс сортировки данных согласно некоторым критериям или переменным, результаты которого часто показываются в виде диаграмм и графиков.

Мы можем классифицировать массив данных в различные группы (или категории) с общими характеристиками, называемыми переменной стратификации. Важно установить, которые переменные будут использоваться для сортировки.

Стратификация — основа для других инструментов, таких как анализ Парето или диаграммы рассеивания. Такое сочетание инструментов делает их более мощными.

В результате расслаивания обязательно должны соблюдаться следующие два условия:

· различия между случайной величиной внутри слоя (дисперсия) должны быть как можно меньше по сравнению с различием ее значений в нерасслоенной исходной совокупности;

· различие между слоями (различия между средними значениями случайной величин слоев) должны быть как можно больше.

Расслаивание данных может быть проиллюстрировано с помощью таблиц, гистограмм и пр.

Как выполнить стратификацию данных

1. Определяются факторы, по которым будет проводиться стратификация. В качестве фактов могут выступать время, операторы, оборудование, условия производственных операций (такие как температура, влажность, давление, освещенность и т.п.), материалы и средства измерения (такие как измерительное оборудование и методы измерения).

2. Определяется число страт (слоев). Количество страт берется соответственно количеству факторов, выявленных на предыдущем шаге. Например, отклонения в показателях продукции могут возникать из-за действий оператора. Если к производству продукта привлечено четыре оператора, то стратификация выполняется по четырем факторам и число страт должно быть четыре. Или, если условия производства продукта остаются одними и теми же, изменения в характеристиках могут возникать в разные периоды времени – первая смена, вторая смена или третья смена работы. В этом варианте страт будет три (по количеству смен) и стратификация проводится по трем факторам.

3. Выбирается необходимый инструмент качества для графического представления статистических данных. Как правило, для этих целей используется диаграмма разброса, контрольная карта или гистограмма. Можно применять и табличный метод, но графический способ является более наглядным и позволяет быстрее определить системность в представленных данных.

4. Определяется количество статистических данных, попадающих в каждую страту. Для того, чтобы стратификация данных была эффективной, необходимо придерживаться двух условий. Во-первых, различия между значениями случайной величины внутри страты должны быть как можно меньше по сравнению с различием ее значений в исходной совокупности данных. Во-вторых, различия между стратами должны быть как можно больше. Количественно это различие можно определить по разнице средних значений случайной величины в каждой страте.

5. На выбранный графический инструмент качества «наносятся» данные с указанием принадлежности этих данных к каждой из страт. Для отделения данных друг от друга, можно использовать самый простой метод – цветовую индикацию данных.

6. Проводится анализ подмножества данных. Анализ данных проводится для каждой страты отдельно.

 










Последнее изменение этой страницы: 2018-04-12; просмотров: 173.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...