Основоположником того, что прямо скажем так, не совсем удачно названо и продолжают называть теорией информации, стал Клод Шеннон. Он обобщил работы предшественников и сформулировал основные положения того, что он сам назвал математической теории связи в одноименной статье (
Под информацией Шеннон понимал лишь сигналы, несущие содержание, которое распознает получатель, роль которого он не принимал во внимание. В процессе передачи данных изначальная энтропия уменьшается, поэтому сумма оставшейся энтропии и переданной информации равна начальной. Хотя Шеннон и оперирует понятием информации, точного определения он не предлагает, впрочем, оговаривая, что сообщения могут иметь какое-то значение. К тому же Шеннон, оперируя понятием энтропия, предостерегал своих последователей от чрезмерного теоретизирования при трактовке энтропии. Настороженное отношения автора к введенному им понятию была объясняется тем, что он был не вполне самостоятелен при выборе этого термина. Хорошо известен и неоднократно описан тот факт, что он находился под влиянием обладавшего огромным авторитетом и фантастической харизмой Джона фон Неймана. Так вот, это фон Нейман навал шенновскую теорию передачи данных теорией информации. А еще он внушил Шеннону необходимость введения понятия информационной энтропии следующим образом: «Во-первых, это название использовано в нескольких физических дисциплинах, значит у нее уже есть имя. Во-вторых, и что не менее важно, никто не знает, что такое энтропия в этом контексте, это даст вам преимущество в любой дискуссии». Удивительно, но через несколько лет сам Шеннон поступил подобным образом, он посоветовал Норберту Виннеру использовать термин кибернетика с аналогичной аргументаций.
В качестве единиц для измерения шенновской информации были предложены бит, нат, трит и хартли (децит, бан, дит), различающиеся основанием логарифма: двоичный бит – основание 2, натуральный нат – основание e, троичный трит – основание – 3, хартли – основание 10. Соответственно при передаче одного бита энтропия уменьшается вдвое, трита – втрое, а ната и хартли в 10 раз. Бит еще и единица изменения объема данных, 8 битов образуют байт, далее идет килобайт и т. д. Бит, как единица измерения шенноновской информации, и бит, как единица измерения данных, родственны, но не тождественны.
Данные и их содержание
Достоинство трактовки информации по Шеннону в ее формальности, а ее недостаток – в привязанности исключительно к коммуникациям без учета смысловой нагрузки сообщения. Она вполне адекватна задачам, связанным с оценкой пропускной способности каналов, потерей данных в процесс передачи и другим, относящимся к коммуникациям, где содержание сообщения не учитывается, но такой подход к инфломации не имеет никакого отношения к решению содержательных задач, например, проблемы Big Data. Даже на интуитивном уровне понятно, что возможны и другие подходы к пониманию информации, учитывающие ее содержательную строну и они были. Через три года после публикации Шеннона на 8-й Конференции Мэйси британец Дональд Маккей (Donald MacKay, 1922–1987) представил свой альтернативный подход, отличающийся учетом семантической природы информации. Он отметил, что видит проблему передачи информации не только в обеспечении физики для поддержки потока символов от передатчика приемнику, но и в передаче семантики того, что передается. А главное, он определял информацию, принимая в расчет не только передающую, но и получающую сторону, которая тоже изменяет свое информационное состояние после получения сообщения. Какая польза от передачи данных, если принимающая сторона не смогла перевести их в информацию?