Любая форма письменности представляет собой кодирование информации с помощью специальных значков. Чтобы понять закодированное сообщение, нужно знать код, то есть знать, что обозначает каждый знак. Между количеством знаков в коде и длиной текста, записанного с его помощью, прослеживается интересная закономерность, называемая в математике обратной пропорциональностью. Чем больше знаков содержит сам код, тем короче текст, записанный с его помощью, и наоборот, чем меньше знаков в коде, тем длиннее записанный текст. Например, чтобы читать текст на китайском языке, нужно помнить начертание тысяч иероглифов, но иероглифические тексты, сравнительно с текстами других систем письма, наиболее короткие. В то же время, самый короткий код может состоять всего из двух знаков. Пример подобного кода, успешно применявшегося в практике общения и передачи информации – это телеграфная азбука Морзе, которая содержит только два знака · и – , то есть «точку» и «тире». В фильмах о разведчиках мы видим, как радисты передают секретные сообщения с помощью этой азбуки. Назван этот код в честь американского изобретателя и художника Сэмюэля Морзе, который в 1838 году предложил систему передачи текстов с помощью телеграфа. Потом система менялась и совершенствовалась, адаптировалась к другим языкам. Покажем интернациональную кодировку букв и цифр по принципу Морзе.
Две буквы можно закодировать, используя один знак: точка – буква E, тире – буква T. При составлении кода учитывалась частота соответствующих букв в англоязычных текстах. С помощью двух знаков можно закодировать еще четыре буквы – это две точки – буква I, два тире – буква M, точка тире – буква A, тире точка – буква. N. Здесь идет чистая математика. С помощью трех знаков можно закодировать 23=8 букв, с помощью четырех знаков 24=16 букв. Таким образом, используя от одного до четырех знаков (точек и тире) можно закодировать 2+4+8+16=30 букв. Практически остались неиспользованными четыре варианта кодировки четырьмя знаками, так как для английского алфавита в 26 букв хватило знаков с избытком. Цифры решили кодировать, используя по пять знаков для каждой. С математической точки зрения наборами из пяти точек или тире можно закодировать еще 25=32 знака.
В фильмах о разведчиках сообщения дополнительно для большей секретности кодируется цифрами и бедным радистам приходится выстукивать вместо коротких букв, пятизначные коды цифр. Не подумал Морзе о секретных службах, а то бы начал свою систему кодировки не с букв, а с цифр: точка – ноль, тире – единица и так далее. Сообщения были бы намного короче, и радистов труднее было бы запеленговать.
В наше время в вычислительной технике используется двоичное кодирование. Двоичный код состоит тоже из двух знаков 0 и 1, с помощью которых происходит промежуточное кодирование всех знаков алфавитного письма, а затем уже кодирование текста. Количество информации содержащейся в 0 или 1 принимается за 1 бит. Подход к кодированию букв, цифр и знаков изначально был принят другой. Все они кодируются наборами из восьми нулей или единиц. Набор из восьми нулей или единиц несет 1 байт информации. Следовательно, любой знак обычного текста содержит 1 байт информации. Этим кодом, который назвали КОИ-8 можно закодировать 28=256 различных знаков. Хватит на буквы английского и родного алфавита, а так же на знаки препинания, цифры и еще массу дополнительных знаков. В последнее время перешли с КОИ-8 на Юникод, который представляет собой кодировку с фиксированным размером символа в 16 бит или 2 байта и позволяет закодировать 216=65 536 знаков. Юникод включает в себя знаки почти всех письменных языков мира. В результате применения подобной системы кодирования, даже короткое предложение будет представлено сотнями знаков 0 и 1 в определенной последовательности, и только быстродействие компьютеров оправдывает использование двоичного кодирования информации.
Таким образом, при создании новых систем передачи информации, приходится учитывать специфику задач конкретной области знаний и балансировать между оптимальной длиной кода и оптимальной длиной текста. Для современной письменности такой золотой серединой являются буквенные алфавиты, содержащие от 25 до 35 знаков, которыми кодируется звуковая речь. Большинство языков имеют алфавитную письменность. Самый короткий алфавит распространен на острове Бугенвиль Соломоновых островов. Он содержит только 11 букв. Гавайский алфавит, созданный на основе латинского, имеет 13 букв. В самом длинном камбоджийском алфавите 72 буквы. С тех пор, как 3500 лет назад был создан первый алфавит, появилось более 200 различных способов записи звуков устной речи.