Молекулярная эволюция и молекулярная филогенетика
Традиционные филогенетические исследования, наполнившие содержанием дарвиновскую концепцию древа жизни, были основаны на сравнении морфологических черт организмов, таких как структура скелета животных или строение цветков растений (Futuyma, 2005). Эволюционные биологи не осознавали, что сравнивать следует реальную молекулярную базу эволюции, которая подвержена действию естественного отбора, то есть гены, просто потому, что они практически ничего не знали о химической основе этой составляющей и о способе, которым гены кодируют фенотип организма. Более того, согласно парадигме панадаптационизма в эволюционной биологии, гены, на каком бы молекулярном механизме они ни основывались, должны существенно разниться в неродственных организмах, если учесть фенотипические различия между этими организмами, как подчеркивалось, в частности, Эрнстом Майром, одним из главных строителей СТЭ.
Идея того, что последовательность оснований ДНК может использоваться для эволюционной реконструкции, была, вероятно, впервые высказана в печати, пусть и мимоходом, еще Криком (в той же самой основополагающей статье, в которой он сформулировал адапторную гипотезу синтеза белка, – Crick, 1958). Эмиль Цукеркандль и Лайнус Полинг развили принципы и описали первое фактическое использование молекулярного эволюционного анализа несколько лет спустя. Они напрямую опровергли гипотезу Майра, показав, что последовательности аминокислот нескольких белков, которые в то время были известны для нескольких видов, такие как цитохром c и глобины, оказались чрезвычайно консервативными даже у дальнородственных животных (Zuckerkandl and Pauling, 1965). Цукеркандль и Полинг также предложили концепцию молекулярных часов: они предсказали, что скорость эволюции определенной последовательности белка будет неизменна (с учетом возможных флуктуаций) в течение длительных временных интервалов в отсутствие функциональных изменений. Здесь необходимо отметить, что то, что последовательности генов, кодирующих «один и тот же белок» (то есть белки с одинаковым действием и сходными свойствами), в различных организмах оказались очень сходными – и, более того, степень схожести этих последовательностей отрицательно коррелировала с филогенетическим расстоянием между данными организмами, – можно рассматривать как наилучшее и исчерпывающее доказательство реальности эволюции.
В течение последующих нескольких лет, в основном благодаря работам Маргарет Дэйхофф и ее коллег, консервативность кодирующих белки последовательностей была продемонстрирована на примерах самых различных форм жизни, от бактерий до млекопитающих (Dayhoff et al., 1983). Учитывая открытие консервативности белок-кодирующих последовательностей и гипотезу молекулярных часов, оказалось естественным перейти к конструированию филогенетических деревьев на основе (не)похожести этих последовательностей, что должно было показать примерное время возникновения расхождений в последовательностях генов (белков) от общего предка. И в самом деле, скоро были изобретены несколько методов измерения расстояний в молекулярной филогенетике, а также введен принцип наибольшей экономии (см. табл. 2–1). Последующее тестирование гипотезы молекулярных часов на все растущей базе последовательностей ДНК показало, что для большинства генов эти часы идут не с одинаковой скоростью; напротив, эти данные оказались значительно диспергированы, то есть отклонения в скорости эволюции значительно превышали среднее отклонение, которое могло быть предсказано распределением Пуассона (Bromham and Penny, 2003). Такая избыточная дисперсия молекулярных часов приводит к особенности молекулярного филогенеза, известной как притяжения длинных ветвей (ПДВ), существенно искажающей результаты молекулярного филогенетического анализа (см. табл. 2–1). Молекулярная филогенетика, таким образом, превратилась в сложную ветвь прикладной математики и статистики в основном для того, чтобы справляться с эффектами ПДВ и им подобными (Felsenstein, 2004). Но, несмотря на все артефакты, молекулярная филогенетика остается краеугольным камнем современной эволюционной биологии и использует в первую очередь методы наибольшего правдоподобия (см. табл. 2–1).
Таблица 2–1. Краткое описание филогенетических методов
Методы, основанные на секвенировании
Требуют многократного сравнения гомологичных нуклеотидов или белковых последовательностей.
Дистанционно-матричные методы
Все эти методы используют матрицы межвидовых расстояний <dij> (i, j соответствуют видам), рассчитанные на основе сравнений последовательностей с корректировкой на множественные замещения. Ультраметрические методы (простая иерархическая кластеризация). Достоверны только для стабильных молекулярных часов. В принципе не считаются приемлемыми филогенетическими методами, но могут быть использованы для целей классификации или генерации предварительных филогенетических деревьев.
Метод объединения ближайших соседей (neighbor-joining). Более сложный метод восходящей кластеризации, основанный на минимальном эволюционном критерии (кратчайшая суммарная длина ветвей дерева). Чувствителен к ПДВ и гораздо менее точен, чем метод наибольшего правдоподобия, однако высокоэффективен для вычислений и быстр. Не используется для исчерпывающего филогенетического анализа, но для анализа большого количества последовательностей может быть единственным практически применимым методом.
Метод наименьших квадратов, метод Фитча. Метод измерения расстояний, основанный на минимизации разностей между расстояниями на филогенетическом дереве и в соответствующей матрице расстояний. По точности и эффективности примерно равен методу объединения ближайших соседей. Считается неподходящим для исчерпывающего филогенетического анализа, но используется для построения предварительных филогенетических деревьев для метода наибольшего правдоподобия.
Принцип наибольшей экономии (maximum parsimony)
Не использует матрицы расстояний, вместо этого работает с наборами состояний признаков. Состояниями признаков, в частности, могут быть нуклеотиды или аминокислоты в определенных позициях множественных выравниваний. Принцип наибольшей экономии (НЭ), основанный на принципе наименьшего действия в физике, определяет как наиболее вероятный тот эволюционный сценарий (филогенетическое дерево), который включает в себя наименьшее количество событий (переходов состояний в наборе признаков).
Существует множество алгоритмов, вычисляющих деревья, наиболее соответствующие принципу НЭ и использующие значимые и незначимые признаки. Принцип НЭ часто ставится под сомнение, поскольку существуют деревья, лишь слегка отличающиеся от наиболее экономичного варианта, но имеющие совершенно иную топологию. Метод высоко чувствителен к ПДВ.
Метод наибольшего правдоподобия (maximum likelihood)
Аналогично методу НЭ, в методе наибольшего правдоподобия (НП) оцениваются переходы между состояниями признаков и выбираются деревья, набравшие наибольший вес. В отличие от метода НЭ, метод НП является параметрическим статистическим подходом, который использует детальную модель эволюции признака для оценки вероятности данных на основе имеющегося эволюционного дерева. Дерево, которое имеет наибольшую вероятность возникновения наблюдаемых данных, признается наиболее вероятным. Метод НП зачастую производит деревья, аналогичные тем, которые получаются методом НЭ, но теоретически он предпочтительнее, будучи (в отличие от НЭ) статистически более достоверным (то есть при наличии достаточного количества данных гарантирует получение наиболее правдоподобного дерева). На практике метод НП часто превосходит метод НЭ. Методы НП чрезвычайно затратны с вычислительной точки зрения и непрактичны при работе с большими наборами данных. Таким образом, методы НП зачастую используются для оптимизации предварительных деревьев, полученных методом объединения ближайших соседей и методом Фитча. Для тех же филогенетических исследований, где точность построения дерева важнее скорости, следует выбирать методы НП. Более того, недавние алгоритмические достижения более чем на порядок ускорили построение филогенетических деревьев методами НП без серьезных потерь точности (Price et al., 2010).
Байесовский подход
Подобно методу НП, этот подход использует функцию правдоподобия, но прибегает к теореме Байеса с целью связать апостериорную вероятность дерева с правдоподобием данных и априорную вероятность дерева с эволюционной моделью. В отличие от методов НЭ и НП, которые выводят наилучшее дерево или набор деревьев, методы байесовского вывода выбирают деревья пропорционально их правдоподобию и определяют представительный набор деревьев. Метод хорошо работает для относительно небольших объемов данных, но непрактичен для больших.