Коэффициент корреляции (параметрический).

Стр 1 из 3Следующая ⇒

Основы корреляционного анализа.

Наиболее простой вид связи между переменными величинами -- это функциональная зависимость:y=f(x). Каждому значению x соответствует одно значение y.

В медицине и биологии чаще встречается более сложный вид зависимости, когда каждому x соответствует множество значений y -- это корреляционная зависимость.

x₁ x₂ x₃ x_n X

Y y_n y₃ y₂ y₁

. y̅₁

. y̅₂

. y̅₃

. y̅_n

x̅₁

x̅₂

x̅₃

x̅_n

x̅,y̅

x=x̅(y)

y=y̅()

Например: X -- рост, Y -- вес.

То есть имеем целое «облако» из точек в системе координат. Каждому значению x_i соответствуем множество значений y, среднее арифметическое этих значений y̅_i называется условным средним.

Таким образом, среди множества точек с изменением xможно выделить точки, соответствующие условным средним y: y̅₁, y̅₂, y̅₃,….y̅_n. Если соединить эти точки кривой линией, то получим линию регрессии, а соответствующая ей функция y=y̅(x) -- функция регрессии.

Точно также, при изменении значений y, каждому y_iсоответствует множество значений x, их средние арифметические x̅_i -- условные средние, соединив их кривой , получаем вторую линию регрессии, ей соответствует функция регрессии: x=x̅(y).

x̅,y̅ -- общие средние. Это средние арифметические, вычисленные по всем значениям x и y.

Следовательно, в отличии от функциональной зависимости, корреляционная зависимость характеризуется двумя линиями регрессии:

уравнение регрессии.

В настоящее время изучение различных корреляций является важным разделом многих биологических дисциплин, поэтому возникает потребность в количественном измерении корреляции. Для этого служит ряд методов, наиболее распространённым из которых является вычисление коэффициента корреляции -- это количественная характеристика связи (зависимости) между исследуемыми величинами.

Дисперсия суммы случайных величин. Корреляционный момент.

Xи Y -- случайные величины.

(1) Z=X+Y -- их сумма.

(2) M[Z]=M[X]+M[Y]

Найдём D[Z]=D[X+Y] , для этого вычтем из уравнения (1) уравнение (2):

(3) Z-M[Z]=X+Y-M[X]-M[Y]=(X-M[X])-(Y-M[Y])

Для сокращения записи обозначают:

Z-M[Z]=ΔZ

X-M[X]=ΔX Эти величины называют моментами.

Y-M[Y]=ΔY

Момент -- это отклонение каждого значения случайной величины от её математического ожидания.

Возведём уравнение (3) в квадрат: (Z-M[Z])²=((X-M[X])+(Y-M[Y]))²

ΔZ²=(ΔX+ΔY)² , тогда

ΔZ²=ΔX²+ΔY²+2·ΔX·ΔY -- это сумма квадратов отклонений.

Математическое ожидание от суммы квадратов отклонений это дисперсия:

D[Z]=D[X+Y]=M[ΔZ²]=M[ΔX²]+M[ΔY²]+2·M[ΔX·ΔY]=D[X]+D[Y]+2·M[ΔX·ΔY]

Принято обозначение: M[ΔX·ΔY]=K[X,Y] -- корреляционный момент.

Основное свойства корреляционного момента: если величины Xи Y независимы, то их корреляционный момент K[X,Y]=0. Обратное утверждение неверно.

Из последнего утверждения следует:

Теорема сложения дисперсий.

Если величины Xи Y независимы, то:

D[X+Y]= D[X]+D[Y]

Этой теоремой пользуются в теории погрешностей, при обработке результатов косвенных измерений. Так как входящие в расчётные формулы величины в большинстве случаев независимы, то подсчитывая среднюю квадратическую погрешность, суммируют квадраты всех их погрешностей.

Коэффициент корреляции (параметрический).

Корреляционный момент K[X,Y] – размерная величина, то есть зависит от выбора единицы измерения. Это затрудняет сравнение корреляционных моментов различных случайных величин, поэтому удобнее использовать безразмерную величину -- коэффициент корреляции:

-- это коэффициент корреляции для генеральной совокупности.

-- средние квадратические отклонения при n→∞

Но мы имеем дело с выборкой, n конечно, выборочные оценки M[X] и M[Y] -- это x̅ и y̅ -- общие средние (средние арифметические всех значений X и Y, которые мы имеем из выборки).

Поэтому для вычисления коэффициента корреляции для выборки, используют формулу:

Свойства коэффициента корреляции:

1). -1≤R[X,Y]≤+1

если R[X,Y]˃0 то корреляция называется положительной,

если R[X,Y]<0 то корреляция называется отрицательной.

2). если R[X,Y]≈1, зависимость между X и Y близка к линейной.

3). , то X и Yсвязаны линейной зависимостью:

y=ax+b

x=cx+d

Так как мы имеем дело с выборочной совокупностью, то имеем не множество значений X и Y, а несколько пар выборочных значений: (x_i,y_i), i=1 : n.

x₁ x₂                        x_n

y_n y₂ y₁

R≈+1 Например: X -- нагрузка ↑                 Y -- частота пульса ↑

Сильная положительная корреляция:

x₁ x₂                             x_n

y_n y₂ y₁

R≠+1, R˃0 Например: X -- число пятен на солнце ↑ Y – количество инфарктов ↑

Слабая положительная корреляция:

Сильная отрицательная корреляция:

x₁ x₂                        x_n

y₁ y₂ y_n

R≈-1 X↑, Y↓

Корреляции (зависимости) нет.

x₁ x₂               x_n

y_n y₁ y₂

R=0

Так как коэффициент корреляции R[X,Y] вычисляется по выборке, то есть является статистической оценкой ρ[X,Y]-- коэффициента корреляции генеральной совокупности, то R[X,Y] вычислен с ошибкой. Встаёт вопрос: достоверно ли значение выборочного коэффициента корреляции?

12 3 Следующая ⇒

Последнее изменение этой страницы: 2018-04-12; просмотров: 330.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...