Все эти сведения о вероятностных законах словесных текстов вы можете почерпнуть из специальных статей и книг. Но если вам посчастливится побывать в лабораториях Нового Города, вы сможете увидеть собственными глазами, как случаем управляет закон. Здесь вам предложат вновь обратиться к урне с шарами, но на этот раз шары будут отличаться не цветом, а надписью: на каждом шаре будет написана какая-то буква. Вынимая шары наугад и вновь бросая их в урну, вы получите что-нибудь вроде:
- Для чего вы заставляете меня записывать эту бессмыслицу? - спросил я у сотрудника лаборатории, демонстрировавшего этот опыт.
- Бессмыслицу? - улыбнулся он. - Да, пожалуй. Это пример самого хаотичного текста. В этой урне 320 шаров, каждая буква повторяется 10 раз. Вероятность всех букв одинакова:
PА = PБ = PВ = ... = PЯ = 1/32.
Если вы подставите эти значения в формулу Шеннона, то получится, что каждая буква дает информацию в количестве 5 бит.
(Читатель уже знаком с примером такого расчета. В данном случае:
I =
(
1
32
·log
1
32
)
·32 = log
1
32
= - log 25 = 5 бит.)
Обратите внимание, - продолжал он, указывая на непонятную запись, - каким несуразным получилось второе слово. Встречали ли вы когда-нибудь такие «слова»? Конечно, нет, ведь в нем целых 59 букв! Продолжая этот опыт, вы будете все время получать такие же длинные и несуразные «слова». Почему? Потому что буквы чередуются здесь беспорядочно. 10 шаров не имеют букв. Вынимая такой шар, вы отмечаете пробел, соответствующий концу «слов». Вероятность появления пробела так же равна 1/32. Это значит, что в среднем на каждые 32 вынутые буквы будет один раз попадаться пробел. Значит, в нашем «тексте» 31 буква - это средняя длина слов. А ведь в нормальном тексте средняя длина слова составляет не более 7 букв.
Как же сделать, чтобы наш «текст» стал похож на обычные тексты? А очень просто. Возьмем другую урну. В этой урне среди каждой сотни шаров буква а попадется семь раз. Приблизительно с такой частотой повторяется она в русском тексте. Количество других букв также соответствует их вероятности. Повторите опыт.
На этот раз сообщение выглядело так:
- Не правда ли, это мало похоже на обычную фразу? - обратился ко мне ученый. - И все же здесь уже есть какой-то порядок, по крайней мере нет слов слишком длинных, и каждое из них можно даже произнести вслух. А впрочем, нет. Как произнесешь мягкий знак, - стоящий в начале слова или поеле гласного звука я? Мы можем оценить в цифрах, много ли порядка появилось теперь в нашем тексте. Для этого надо знать, чему равна вероятность каждой буквы, подставить их в формулу Шеннона и подсчитать значение I. Мы уже делали такие расчеты, Получалось, что на каждую букву приходится теперь около 4 бит.
Итак, в первом случае было 5 бит на букву, а теперь только 4. Почему? Потому что уменьшилась неопределенность. Разные буквы имеют теперь не одинаковую вероятность, а разную. У формулы Шеннона есть одно очень важное свойство: она всегда покажет, что наибольшее значение I соответствует равной вероятности всех возможных событий. Если есть черные и белые шары, энтропия будет самой большой, когда и тех и других по 5, по 10 или по 100 штук. Если черных больше, чем белых, неопределенность становится меньше. Значит, в формуле Шеннона уменьшилось I.
То же самое с текстом. Раньше каждые 100 букв несли 500 бит информации, теперь 100 букв дают только 400 бит. Неопределенность фразы, состоящей из 100 букв, стала меньше ровно на 100 бит.
А можно рассуждать по-другому: перед тем как класть в урну шары с обозначениями букв, мы учли их вероятность. От этого в нашем тексте стало больше порядка: в каждой стобуквенной фразе порядок возрос на 100 бит.
- А сколько порядка в обычном печатном тексте? - спросил я ученого.
- На этот вопрос не так-то просто ответить. Чтобы оценить в битах этот порядок, надо учесть корреляцию всех букв и слов. Но мы с вами поступим несколько проще. Вот перед вами стоит вычислительная машина. В ее памяти хранятся все буквы алфавита. Мы сейчас зададим ей такую программу: она будет помнить три последние буквы написанного ей текста и сама выберет четвертую. При этом она учтет вероятности сочетаний: например, она «знает», что вероятность сочетания ста составляет 5 процентов, а вероятность стю - только 1 процент. Значит, в тексте, написанном этой машиной, сочетание стю встретится в пять раз реже, чем сочетание ста. Внимание, я включаю машину!
Прошло несколько мгновений, и на печатном бланке появились такие «слова»:
весел враться не сухом и непо и корко6.