Пример этот имеет иллюстративный характер — все числовые данные у нас были. Однако часто лингвисты имеют дело с отрывочными сведениями, неполными материалами по диалекту, эпохе или стилю того или иного языка. Здесь математическая модель помогает восстановить не засвидетельствованные в дошедших до нас памятниках этапы развития языка. Так, А. А. Пиотровская и Р. Г. Пиотровский выводят формулу, по которой можно вычислить динамику формирования и развития в старофранцузском языке определенного артикля (формирование это шло в народно-разговорной речи, которая почти не отражена в дошедших до нас памятниках той эпохи).
Зависимость между объемом текста, который подвергается обработке, и числом разных слов, которые в нем окажутся, очевидна. Нельзя ли отыскать математически строгую формулу, по которой можно было бы, исходя из объема текста, вычислять количество слов? И определять, какой объем даст нам статистически достоверные результаты?
Первым найти такую формулу словаря попытался уже упоминавшийся нами Дж. Ципф. Связь между частотой употребления слова и его рангом, то есть номером в списке, получила наименование «закон Ципфа». Частотные словари представляют собой обычно списки слов, которые расположены по их рангу: первым идет слово, которое встречается чаще всего, затем второе по встречаемости и т. д. Однако выяснилось, что «закон Ципфа» не универсален. Были попытки описать распределение слов в тексте с помощью специальных формул теории вероятностей — так называемого нормального распределения, распределения Пуассона, распределения Маркова— Колмогорова и т. д. (причем, как показала советская исследовательница М. Е. Каширина, распределение Маркова — Колмогорова является наиболее общим и универсальным для распределения любых языковых единиц).
В теории вероятностей известны десятки законов распределения случайной величины. Задача статистической лингвистики — выбрать тот закон, который лучше всего отражает именно реалии языка, а не какие-либо иные закономерности.
Вот характерный пример, заимствованный нами из учебника «Математическая лингвистика», написанного Р. Г. Пиотровским, К. Б. Бектаевым и А. А. Пиотровской. И наше обычное поведение, и функционирование техники, и порождение речи — в той или иной степени вероятностны. Садясь в самолет или автомобиль, мы уверены, что все будет хорошо. Составляя словарь для перевода русских текстов по математике, мы не станем включать в него слово
И все-таки несчастные случаи, увы, бывают, какова бы ни была их вероятность. В книгах по математике можно найти и бубнового туза и даже дядю (так, в труде «Теория вероятностей» Е. С. Вентцель читатель может обнаружить цитату из начала «Евгения Онегина», знаменитое «Мой дядя самых честных правил…»). Так что же, отменить автомобили и не летать на самолетах? А в математические словари наряду со словом
Если сравнить астрономически большое число полетов и автомобильных пробегов с числом несчастных случаев, станет ясно, насколько мала их вероятность. И вероятность всех этих дядей и бубновых тузов в математических трактатах мала — хотя авторы их могут и процитировать Пушкина, и воспользоваться известными всем игральными картами, иллюстрируя пример случайного выбора или комбинаторных сочетаний.
Студент сдает экзамен. Из ста предложений, данных ему для перевода, в шести он напутал с синтаксисом. Пятерки такой студент не заслужил, но зачет ему поставит любой здравомыслящий преподаватель, даже не знакомый с теорией вероятностей. Ибо понимает, что с помощью словаря такой студент сумеет перевести любой взятый наугад текст. Но если такое же число ошибок сделает машина-переводчик, ее программа зачета не получит. Студент умеет пользоваться словарем, при переводе опирается на смысл фразы, и небольшие помехи с синтаксисом ему не слишком повредят. А ЭВМ свои ошибки в синтаксисе не искупит ни лексикой, ни смыслом, ей недоступным. Прощать мы должны не шесть, а скажем, одну ошибку на сто фраз.
Что же касается техники, тут дело и вовсе серьезное. Вот почему так строго к нарушениям наше ГАИ и так тщательно проверяют готовность самолета работники Аэрофлота. Ибо тут, когда речь идет о людях, случайность должна быть сведена до минимума: не одну ошибку на сотню случаев, а даже одну ошибку на сто тысяч нельзя допускать!
Инженерная лингвистика
Связь техники, статистики и языкознания наметилась давно. Ведь даже на простой, но очень важный вопрос: как удобнее расположить клавиши на пишущей машинке? — нельзя ответить одному только технику или лингвисту. Нужно знать частоты употребления различных букв и сочетаний этих букв. Нужно знать конструкцию машинки (вот почему редкие буквы расположены на периферии, а частые — в центре клавиатуры, причем на основании статистики спарены