Не скроем, подобное мнение противоречит установившейся на сегодня точке зрения большинства ученых на теорию информации. Поэтому нам представляется важным проследить тот исторический путь, в результате которого сформировался вероятностный подход к информационным процессам.
В 1876 году президент США Гарфилд весьма категорично высказался по поводу телефона:
— Как открытие оно исключительное, но только кто им будет пользоваться?
Вопреки мнению президента телеграфная, телефонная, а в дальнейшем и радиосвязь развивалась чрезвычайно быстрыми темпами и со временем неотъемлемой составной частью вошла в промышленные комплексы и государственный аппарат многих стран. Стало ясно, что связь, тем более на далекие расстояния, достаточно дорогое удовольствие. Возникла насущная необходимость проектировать системы связи на строгой научной основе.
Общепризнанным основоположником современной общей теории связи, которую в большинстве случаев считают также и теорией информации, является американский ученый К. Шеннон. К. Шеннон занимался исследованием конкретного процесса — процесса передачи сигналов по телеграфным и телефонным каналам. Ход его рассуждений был примерно таким. По телеграфному каналу передаются сообщения, представляющие собой последовательности букв какого-нибудь алфавита, например латинского. При желании можно составить следующую таблицу соответствий:
Пусть символу 1 соответствует некоторое положительное электрическое напряжение в цепи телеграфного канала, а символу 0 — такое же по абсолютной величине, но отрицательное электрическое напряжение. Факт установления в телеграфной цепи напряжения данного знака называется посылкой. Каждая посылка соответствует одному символу: либо 1 (положительное напряжение), либо 0 (отрицательное напряжение). Длительность посылки определяется свойствами телеграфного канала и не может быть меньше некоторой величины τ. Шеннон считал все посылки одинаковой длительности, равной τ.
В подобных условиях передача одной буквы латинского алфавита занимает время, равное 5τ. Для передачи двух букв требуется 5·2·τ и в общем случае для передачи n букв — 5nτ единиц времени. Нельзя ли передать сообщение, представляющее собой последовательность n букв латинского алфавита, по данному каналу связи за время, меньшее, чем 5nτ? Такую задачу поставил перед собой и пытался решить К. Шеннон.
Оказалось, это задача разрешимая, если сообщения представляют собой слова какого-то языка или последовательности слов. Разрешима она потому, что разные буквы в любом языке встречаются не одинаково часто. Например, в тексте на русском языке длиной, скажем, в тысячу букв буква «о» встречается примерно 90 раз, буква «р» — 40 раз, а буква «ф» — 2 раза. Аналогичные закономерности справедливы для английского и других языков. В чем заключалась основная идея Шеннона?
Для чаще встречающихся букв использовать меньшее число посылок. Например, чаще всего встречающуюся в английских текстах букву «е» представлять одной посылкой, а букву «а» — двумя и т. д.
Сразу выяснилось, что подобная таблица соответствий была составлена задолго до работы К. Шеннона и называется она азбукой Морзе. В азбуке Морзе все так и делается: буква «е» представляется одной точкой (при желании и мы можем считать символ 1 точкой, а символ 0 тире), буква «а» — точкой и тире (в нашем случае комбинаций 10) и т. д.
Таким образом, теория Шеннона подтвердила эффективность азбуки Морзе, построенной исходя из интуитивных соображений.
Следующий шаг К. Шеннона состоял в том, что он подсчитал среднее количество посылок, приходящееся на букву. Как он это сделал? Взял количество посылок, потребное для передачи буквы «а», прибавил к нему количество посылок, потребное для передачи буквы «в», и так до конца алфавита; затем прибавил количество посылок, потребное для передачи точки, запятой, других знаков препинания, и полученную сумму разделил на 32. Вычислил величину, называемую арифметическим средним для совокупности из 32 чисел.
Мы подробно разбираем такой, казалось бы, элементарный вопрос, потому, что он имеет для нас принципиальное значение. Среднее количество посылок, приходящихся на букву русского алфавита, при условии, что передаются слова, фразы и тексты на русском языке, равно примерно 4,35. Эта величина представляет собой среднее арифметическое от числа посылок, требующихся для передачи букв русского алфавита, при условии, что частоты, с которыми эти буквы встречаются, характерны для русского языка.