Точное определение организационной – или, в случае биологии, организменной – сложности по самой своей природе дается трудно. Попытки в этом направлении рассматривают различное число составляющих частей в сравниваемых системах[70]. Например, у позвоночных большее количество тканей и типов клеток, чем у червей, и это, естественно, приводит к утверждению, что позвоночные обладают большей организменной сложностью (Bonner, 2004). Для нашего рассуждения, однако, более важен тот факт, что эукариотические клетки имеют гораздо больше внутриклеточных органелл, чем клетки прокариот (те, как правило, вообще не имеют настоящих органелл). Эта разница, безусловно, отражает большую сложность организации эукариотической клетки. Кроме того, можно было бы в принципе измерить число взаимодействий между компонентами или число соединений в сетях передачи сигнала и на этом основании сравнивать сложность организмов или клеток. Однако все эти определения сложности, видимо, упускают «нечто», что мы интуитивно воспринимаем как неотъемлемое свойство сложной организации. В любом случае количественное сравнение организменной сложности, по-видимому, не приносит много пользы в реальных исследованиях. Геномная сложность определяется более естественно и может быть изучена подробнее. Действительно, в конце концов, геномные последовательности представляют из себя длинные строки цифровых символов (букв), а для этого класса объектов хорошо известны формальные, операциональные определения сложности. Вероятно, наиболее известным и наиболее интуитивно осмысленным из них является колмогоровская сложность, которая связана с шенноновской информацией и классическим статистическим определением энтропии по Больцману. Колмогоровская сложность – это просто длина кратчайшей строки символов, в которых может быть закодирована данная последовательность (геном). Очевидно, что наименее сложной последовательностью будет гомополимер (например, polyA), для которого длина сообщения составляет лишь одну букву, а сложность (информационное содержание) – 2 бита (в случае четырех нуклеотидов). Наиболее же сложная последовательность – полностью случайный полимер с равными частотами для всех четырех нуклеотидов (или 20 аминокислот, если мы примем это определение для аминокислотных последовательностей) в каждой позиции. Классическая формула Шеннона для энтропии (информационного содержания) нуклеотидной последовательности длины L (см. рис. 8–1а) может быть записана следующим образом:
Рис. 8–1. Содержание информации и сложность: а – одной последовательности; б – выравнивания гомологичных последовательностей; f обозначает частоты нуклеотидов в последовательности (а) или столбце выравнивания (б).
Здесь fi – частота символа i (i = A, T, G, C); далее, основание логарифма m считается равным размеру алфавита (4 в случае нуклеотидных последовательностей и 20 для аминокислотных последовательностей)[71]. Определенная таким образом, информация (энтропия) говорит нам очень мало об осмысленном информационном содержании или сложности геномной последовательности. Высокая сложность (энтропия или информационное содержание), очевидно, вовсе не предполагает, что последовательность сложна в каком-либо биологическом значимом смысле. Совершенно случайная последовательность на самом деле, скорее всего, бессмысленна, в то время как гомополимерная последовательность будет иметь ограниченный биологический смысл. Тем не менее почти случайная высокоэнтропийная последовательность может быть столь же функциональной, как и низкоэнтропийная последовательность, – способа узнать это просто не существует. Требуется биологически содержательное определение сложности, и такая попытка была сделана Крисом Адами (Adami, 2002) и несколько по-другому проинтерпретирована автором этой книги (Koonin, 2004). В соответствии с этим новым определением, энтропия и сложность рассчитываются для выравнивания ортологичных последовательностей, а не одной последовательности:
Здесь H(L) – полная энтропия выравнивания n последовательностей длины L, Hi – энтропия для сайта, а Fij – частоты для нуклеотидов (j = A, T, G, C) в сайте i[72]. Очевидно, для полностью консервативного сайта H(i) = 0, в то время как для совершенно случайного сайта H(i) = 1. Обратите внимание, что это определение энтропии полностью соответствует знаменитому статистическому определению Больцмана:
H = kln W