Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Статистическая оценка филогенетических деревьев




После построения филогенетического дерева с помощью любого из рассмотренных выше методов возникает вопрос о том, насколько достоверна полученная топология. Ряд филогенетических методов, включая методы минимума эволюции, максимальной экономии и максимального правдоподобия, позволяют получить несколько альтернативных деревьев. В таких случаях выбранную наилучшую топологию можно сравнить с другими топологиями (второй лучшей, третьей лучшей и т.д.). Если между этими несколькими топологиями нет статистически достоверных различий, то все они равновероятны. Однако ряд филогенетических методов, таких как метод присоединения соседей, не представляет возможности рассмотрения альтернативных топологий. Более того, статистические вопросы в филогенетическом анализе не ограничиваются оценкой статистической достоверности топологии дерева в целом, установлением только того, насколько достоверно выбранная топология отличается от альтернативной.

Важным критерием оценки дерева является проверка надежности каждой ветви дерева. Если статистические данные не дают оснований для заключения о достоверном существовании какой-либо ветви дерева, то, значит, нельзя исключить и возможного отсутствия этой ветви, соответственно – возможности другой топологии дерева ниже этой ветви. Надежность ветви дерева можно оценить с помощью различных статистических методов. Так, можно рассчитать стандартную ошибку длины ветви и с помощью статистических тестов установить достоверность отличия ветви от 0. Если использованный математический аппарат не дает оснований для заключения о том, что длина дерева статистически достоверно отличается от 0, то, естественно, нельзя исключить и отсутствия этой ветви дерева.

Одними из самых распространенных подходов к оценке надежности филогенетического дерева, его ветвей, являются статистические подходы, основанные на методах повторных выборок (resampling). Среди таких методов наибольшее распространение получил бутстрэп-анализ (bootstrap analysis, bootstrap resampling), который состоит в проведении большого количества псевдослучайных выборок из экспериментального набора данных, расчета среднего для каждой выборки и анализа вновь полученной совокупности из «псевдослучайных» средних. Бутстрэп-анализ является универсальным статистическим методом, т.е. используемым не только в филогенетическом анализе. Бутстрэп-анализ может быть параметрическим (parametric), когда данные, для которых проводится филогенетическая реконструкция, формируются в выборку на основании какой-либо гипотезы. В ходе непараметрический (non-parametric) бутстрэпа псевдовыборки генерируются путем повторных выборок из полученных данных. В обоих случаях цель бутстрэп анализа – проверить соответствует ли построенное филогенетическое дерево реальным взаимосвязям для анализируемой выборки данных [6].

Основные этапы проведения бутстрэп-анализа включают [5, 6]: создание случайных выборок на основе анализируемой выборки данных; анализ филогенетических деревьев, полученных для каждой случайной выборки; интерпретация и сравнение результатов для всех случайных выборок; табулирование результатов и создание консенсусного дерева.

Для понимания особенностей применения этого метода в филогенетическом анализе рассмотрим принципы бутстрэп-анализа подробнее [9].

Предположим, что анализируемая группа состоит из девяти последовательностей длиной в 20 нуклеотидов каждая:

Филогенетическое дерево для этой группы последовательностей, построенное методом присоединения соседей с использованием p-дистанций представлено на рис. а.

Оценка статистической достоверности топологии этого дерева с помощью бутстрэп-анализа проводится следующим образом. В анализируемой группе последовательностей случайным образом выбирается одна позиция – пусть это будет позиция 17 - и записывается как первая позиция новой группы последовательностей, первой случайной выборки. Затем, случайным образом, выбирается еще одна позиция – пусть это будет позиция 4 – и записывается как вторая позиция этой первой случайной выборки. Эта процедура повторяется 20 раз, согласно длине анализируемой группы последовательностей. Таким образом создается первая случайная выборка:

Поскольку позиции анализируемой группы последовательностей выбираются случайным образом, то одна и та же позиция может быть представлена в некой выборке и несколько раз. Так, в рассматриваемой случайной выборке позиция 2 анализируемых последовательностей отобрана дважды, позиция 17 трижды, а позиции 7, 13, и 18 – не отобраны ни разу.

Аналогичным образом строятся и вторая, и последующие случайные выборки. Вторая случайная выборка может выглядеть следующим образом:

Обычно при проведении бутстрэп-анализа создают 100-1000 случайных выборок. После этого для каждой выборки строится филогенетическое дерево с использованием тех же методов, что и для анализируемого дерева (т.е. в данном случае – с использованием p-дистанций и метола присоединения соседей). Все полученные деревья сравнивают с анализируемым деревом, определяя, есть ли в этих деревьях те же самые внутренние узлы, что и в анализируемом дереве. Для каждого узла анализируемого дерева подсчитывают процент (или абсолютное число) деревьев, в которых присутствует тот же узел, т.е. все последовательности, находящиеся ниже некого узла в анализируемом дереве, находятся ниже этого узла и в деревьях, построенных для случайных выборок. Этот процент (или абсолютное число) называют значением бутстрэп-анализа (bootstrap value) и записывают рядом с узлом. Результаты бутстрэп-анализа с использованием 100 случайных выборок для рассматриваемых последовательностей приведены на рис. б. Как видно, последовательности A и B, имеющие в анализируемом дереве общий узел, объединены этим узлом в 62 из 100 деревьев, построенных для случайных выборок. В то же время общий для последовательностей A, B, и C узел анализируемого дерева присутствует в 100 из 100 деревьев, построенных для случайных выборок. Таким образом, результаты бутстрэп-анализа рассматриваемого дерева показывают, что о существовании общего узла ABC можно говорить с большой степенью уверенности, чем о существовании узла AB. Как правило, достоверно установленными узлами считают те, для которых значение бутстрэп-анализа превышает 70, лучше – 90.

В рассматриваемом примере, поскольку последовательности A, B и C расположены ниже общего для них узла в 100% случаев, этот общий для последовательностей ABC узел следует считать достоверно установленным, а топологию дерева ниже узла ABC, т.е. наличие общего узла последовательностей A и B, достоверно установленной считать нельзя. Ниже узла ABC возможны и альтарнативные топологии дерева, в которых вместе группируются не последовательности A и B, а последовательности A и C или B и C (рис. в). Тем не менее совместное группирование последовательностей A и B все равно является наиболее вероятным сценарием.

Наибольшее распространение бутстрэп-анализ получил в сочетании именно с методом присоединения соседей, что связано с быстродействием этого метода, позволяющим легко проводить анализ большого числа случайных выборок.

Подводя итог, можно резюмировать, что бутстрэп анализ позволяет проанализировать и оценить выборку при помощи многократного и последовательного создания «фантомных выборок» с целью определения доверительного интервала. Бутстрэп анализ пытается «прощупать» распределение случайной величины. Этот метод позволяет проводить статистическую обработку экспериментальных данных, представленных выборками малого объема и следующих сложным законам распределения. При этом исследователь не должен строить никаких гипотез о конкретном виде закона распределения. Метод бутстрэпа позволяет вычислять сложные функции от непосредственно раблюдаемых величин и при этом получать адекватную оценку статистического поведения таких функций. Метод бутсрэпа можно рекомендовать исследователям в качестве мощного статистического средства там, где не работают классические статистические подходы [14].



Список использованной литературы

1. Network Biology. Nookaew I. (Ed.). Springer, 2017. 202 p.

2. Horiike T. An introduction to molecular phylogenetic analysis. Rev. Agric. Sci., vol. 4, pp. 36-45.

3. Sullivan J., Joyce P. Model selection in phylogenetics. Annu. Rev. Ecol. Syst., 2005, vol. 36, pp. 445-466.

4. Blair Ch., Murphy R.W. Recent trends in molecular phylogenetic analysis. J. Hered., 2011, vol. 102, no. 1, pp. 130-138.

5. Harrison C.J., Langdale J.A. A step by step guide to phylogeny reconstruction. Plant J., 2006, vol. 45, pp. 561-572.

6. Dowell. K. Molecular Phylogenetics. An Introduction to Computational Methods and Tools for Analyzing Evolutionary Relationships. 2008, pp. 1-18.

7. Амбрамсон Н.И. Молекулярная и традиционная филогенетика. На пути к взаимопониманию. Тр. Зоол. Инст. РАН, 2013, прил. 2, с. 219-229.

8. Patwardhan A., Ray S., Roy A. Molecular markers in phylogenetic studies – a review. J. Phylogen. Evol. Biol., 2014, vol. 2, no. 2, art. 1000131, pp. 1-9.

9. Лукашев В.В. Молекулярная эволюция и филогенетический анализ. Москва: Бином, 2009. 256 с.

10. Банникова А.А. Молекулярные маркеры и современная филогенетика млекопитающих. Журн. Общ. Биол., 2004, т. 65, № 4, с. 278-305.

11. Weaver R.F. Molecular Biology. 5th ed. McGraw-Hill, 2011. 892 p.

12. Лухтанов В.А. Принципы реконструкции филогенезов: признаки, модели эволюции и методы филогенетического анализа. Труды Зоологического института РАН. Приложение 2, 2013, с. 39-52.

13. Nichols R. Gene trees and species trees are not the same. Trends Ecol. Evol., 2001, vol. 16, pp. 358–364.

14. Дементьев В.А., Сорока А.В., Химочко Т.Г. Особенности применения метода бутстрепа при нахождении сложных статистических функций от малых выборок в биологических и медицинских исследованиях. Биомед. Хим., 2004, т. 50, прил. 1, с. 117-126.

 










Последнее изменение этой страницы: 2018-05-31; просмотров: 823.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...