В принципе в ЛЖ входят деревья для «всех» генов. Однако на деле работать с тысячью или около того геномных последовательностей прокариот (это число увеличится на несколько сотен к тому времени, когда эта книга будет опубликована) тяжело технически, поскольку максимально правдоподобные (maximum likelihood) методы построения деревьев, обеспечивающие наилучшее разрешение, тяжелы в вычислительном отношении (то есть плохо масштабируются с увеличением числа видов). К счастью, использование всех геномов, видимо, не так уж и важно. Несмотря на динамичную эволюцию прокариот, гены ядра и оболочки в близкородственных организмах (идентифицированные, к примеру, по высокому сходству последовательностей рРНК или других генов ядра) большую часть времени эволюционируют синхронно (а только гены ядра и оболочки распространены достаточно широко для получения информативных филогенетических деревьев). Таким образом, тщательно отобранного представительного набора организмов должно быть достаточно для определения главных тенденций в ЛЖ. Для исследований, которые здесь рассматриваются, мы сконструировали такой набор из 100 геномов прокариот, 41 архейного и 59 бактериальных (в дальнейшем в этой главе мы ссылаемся на эти прокариоты как на виды — с полным осознанием ограничений этой концепции, которые были отмечены в гл. 5). Деревья были построены для всех наборов ортологов с более чем четырьмя членами (минимальное число последовательностей, необходимых для построения бескорневого дерева), таким образом, в общей сложности мы получили 7000 деревьев. Как и ожидалось, с учетом структуры генного пространства прокариот из ядра, оболочки и облака, описанной в главе 5, большинство из этих деревьев маленькие: только 2040 состояли из более чем 20 видов, и лишь небольшой набор из 102 почти универсальных древ (ПУД)[59] включали более 90 процентов проанализированных прокариот.
Обычно филогенетики пытаются определить ГПГ путем сравнения деревьев отдельных генов с заданным заранее «древом видов». Однако, как мы увидели в предыдущем разделе, сама концепция «древа видов» сводится на нет всепроникающим ГПГ и эгоистичностью отдельных генов, которые являются фундаментальными единицами древовидной эволюции. Мы попытались исследовать структуру ЛЖ, не руководствуясь какой-либо предвзятой идеей стандартного древа, с которым следует сравнивать все остальные деревья. С этой целью мы проанализировали полную матрицу топологических расстояний между деревьями; это была довольно большая матрица, включающая почти 24 миллиона попарных сопоставлений деревьев, хотя многие клетки в матрице были пусты, потому что соответствующие деревья состояли из непересекающихся наборов видов.
На рис. 6-3 ЛЖ представлен в виде сети, где каждый узел соответствует дереву. Мы видим, что группа ПУДов занимает особое место в этой сети: около 40 процентов деревьев крайне похожи как минимум на один из ПУДов. (Два дерева считаются топологически подобными, когда различия в соединениях между их ветвями незначительны; из топологических различий высчитываются расстояния между деревьями. Подробности этих вычислений мы опустим.) Напротив, при использовании того же порога сходства 102 случайных дерева того же размера, что и ПУДы, были связаны всего лишь с примерно 0,5 процента деревьев в ЛЖ. Таким образом, существует высокое и неслучайное топологическое подобие между ПУДами и значительной частью ЛЖ.