В принципе в ЛЖ входят деревья для «всех» генов. Однако на деле работать с тысячью или около того геномных последовательностей прокариот (это число увеличится на несколько сотен к тому времени, когда эта книга будет опубликована) тяжело технически, поскольку максимально правдоподобные (maximum likelihood) методы построения деревьев, обеспечивающие наилучшее разрешение, тяжелы в вычислительном отношении (то есть плохо масштабируются с увеличением числа видов). К счастью, использование всех геномов, видимо, не так уж и важно. Несмотря на динамичную эволюцию прокариот, гены ядра и оболочки в близкородственных организмах (идентифицированные, к примеру, по высокому сходству последовательностей рРНК или других генов ядра) большую часть времени эволюционируют синхронно (a только гены ядра и оболочки распространены достаточно широко для получения информативных филогенетических деревьев). Таким образом, тщательно отобранного представительного набора организмов должно быть достаточно для определения главных тенденций в ЛЖ. Для исследований, которые здесь рассматриваются, мы сконструировали такой набор из 100 геномов прокариот, 41 архейного и 59 бактериальных (в дальнейшем в этой главе мы ссылаемся на эти прокариоты как на виды – с полным осознанием ограничений этой концепции, которые были отмечены в гл. 5). Деревья были построены для всех наборов ортологов с более чем четырьмя членами (минимальное число последовательностей, необходимых для построения бескорневого дерева), таким образом, в общей сложности мы получили 7000 деревьев. Как и ожидалось, с учетом структуры генного пространства прокариот из ядра, оболочки и облака, описанной в главе 5, большинство из этих деревьев маленькие: только 2040 состояли из более чем 20 видов, и лишь небольшой набор из 102 почти универсальных древ (ПУД)[59] включали более 90 процентов проанализированных прокариот.
Обычно филогенетики пытаются определить ГПГ путем сравнения деревьев отдельных генов с заданным заранее «древом видов». Однако, как мы увидели в предыдущем разделе, сама концепция «древа видов» сводится на нет всепроникающим ГПГ и эгоистичностью отдельных генов, которые являются фундаментальными единицами древовидной эволюции. Мы попытались исследовать структуру ЛЖ, не руководствуясь какой-либо предвзятой идеей стандартного древа, с которым следует сравнивать все остальные деревья. С этой целью мы проанализировали полную матрицу топологических расстояний между деревьями; это была довольно большая матрица, включающая почти 24 миллиона попарных сопоставлений деревьев, хотя многие клетки в матрице были пусты, потому что соответствующие деревья состояли из непересекающихся наборов видов.
На рис. 6–3 ЛЖ представлен в виде сети, где каждый узел соответствует дереву. Мы видим, что группа ПУДов занимает особое место в этой сети: около 40 процентов деревьев крайне похожи как минимум на один из ПУДов. (Два дерева считаются топологически подобными, когда различия в соединениях между их ветвями незначительны; из топологических различий высчитываются расстояния между деревьями. Подробности этих вычислений мы опустим.) Напротив, при использовании того же порога сходства 102 случайных дерева того же размера, что и ПУДы, были связаны всего лишь с примерно 0,5 процента деревьев в ЛЖ. Таким образом, существует высокое и неслучайное топологическое подобие между ПУДами и значительной частью ЛЖ.
Зная все расстояния между деревьями в ЛЖ, мы можем применить статистические методы для кластеризации данных – то есть определить, является ли ЛЖ просто облаком случайно расположенных точек (деревьев в топологическом пространстве) или содержит определенные кластеры деревьев с подобными топологиями. Использованный статистический метод разделил ЛЖ на семь кластеров деревьев. Примечательно, что все ПУДы образовали компактную группу в пределах одного из кластеров (см. рис. 6–4). Семь кластеров существенно отличаются по распределению деревьев по количеству видов, распределению архебактерий и бактерий, а также функциональной классификации соответствующих генов. Таким образом, результаты кластеризации показали, что ЛЖ может быть разделен на крупные, отчетливые группы топологических подобных деревьев; однако на этой стадии по-прежнему неясно, насколько эта кластеризация обусловлена «вертикальными» эволюционными процессами и насколько – горизонтальными. Ключевым наблюдением является то, что все ПУДы занимают компактную, неразрывную область пространства ЛЖ, не разделяются на отчетливые кластеры (в отличие от остальных деревьев в ЛЖ) и отделены примерно одинаковыми расстояниями от всех кластеров (см. рис. 6–4).