Параметр 3 — частота служебных слов — оказывается не только инвариантом, но и различает достаточное число авторов. Например, для Тургенева он равен 22,24, а для Толстого 23,62. Разность равна 1,38, что превышает колебания этого параметра внутри произведений Тургенева и Толстого.
Для изученных нами писателей параметр 3 может принимать значения от 19,4 процентов до 27,5 процентов, то есть диапазон его значений достаточно велик по сравнению с колебаниями параметра внутри текстов отдельных авторов.
Приведем теперь таблицу значений параметров 3,7 и 8 для Гоголя, Герцена, Достоевского, Леонова и Фадеева.
Приведем таблицу значений параметров 3, 1, 2, 9 для Гончарова и Лескова.
Высокой стабильностью характеризуются значения параметра 3 для А.М. Горького: 22,02, 22,21, 22,20, 22,17 и т. д. Среднее значение 22,15, а отклонение 0,009.
Кстати, значения всех перечисленных параметров вычислялись с точностью до ТРЕХ десятичных знаков. В таблицах значения округлены до двух десятичных знаков. Три знака оставлены только для отклонений параметра 3 от среднего значения.
Поскольку параметр 3 — процентное содержание всех служебных слов — выделяется среди остальных параметров своей поразительной СТАБИЛЬНОСТЬЮ И РАЗЛИЧАЮЩЕЙ СПОСОБНОСТЬЮ, то интересно специально проследить за его колебаниями в зависимости от объема выборки. Приведем таблицу, показывающую зависимость величины отклонения от среднего значения при разных выборках.
Как видно из таблицы, стабилизация параметра 3 иногда наступает на объемах выборок, меньших чем 16 000. Особенно это относится к писателям XVIII века. Например, для Карамзина стабилизация авторского инварианта наступает при объеме в 8000 слов, для Фонвизина — также 8000 слов. Вероятно, это указывает на несколько большую устойчивость стиля писателей XVIII века по сравнению с их коллегами в XIX и XX веках.
Подмеченное нами обстоятельство — ранняя стабилизация — показывает, что в некоторых случаях авторским инвариантом (процент служебных слов) можно пользоваться и при изучении текстов небольших объемов. Однако при широких исследованиях необходимо все-таки пользоваться выборками в 16 000 слов, поскольку только для них стабилизация параметра 3 наступает ОДНОВРЕМЕННО для всех исследованных авторов.
После обнаружения авторского инварианта для перечисленных 22 писателей, рамки эксперимента были расширены и аналогичные подсчеты были проведены еще для пяти авторов: А.Н. ОСТРОВСКОГО, А.К. ТОЛСТОГО, В.А. ЖУКОВСКОГО, A.C. ПУШКИНА и А.П. ЧЕХОВА. Были отобраны ПРОЗАИЧЕСКИЕ тексты БОЛЬШОГО объема. Расширенный эксперимент полностью подтвердил высокую стабильность параметра 3 при выборках в 16 000 слов и его способность различать разные группы авторов. Таким образом, полный список писателей, для которых параметр 3 оказался устойчивым и различающим авторским инвариантом, расширился с 22 до 27.
10. Как можно применять обнаруженный авторский инвариант
Возможное обнаружение плагиата
Одно из возможных применений обнаруженного авторского инварианта — это распознавание плагиата, установление возможного авторства и т. п. Можно предложить следующую естественную методику. Если для двух исследуемых произведений значения параметра 3 (процент служебных слов) разнятся больше, чем на единицу, то есть основания заподозрить различное авторство сравниваемых текстов. Чем больше разница в значениях инварианта, тем подозрение серьезнее.
С другой стороны (как и в проблеме установления отцовства) близкие значения инварианта отнюдь не означают, что исследуемые произведения написаны одним автором. Как мы отмечали, встречаются разные писатели с близкими значениями инварианта. Например, Леонов и Фадеев, у которых эти числа равны соответственно 23,08 и 23,40.
Кроме того, применять методику распознавания авторов к текстам МАЛОГО объема следует чрезвычайно осторожно. Возникающие здесь трудности можно проиллюстрировать на примере крупных и мелких произведений А.П. Чехова. Параметр 3 (процент служебных слов) был просчитан вдоль всех его произведений в собрании сочинений, изданном в 1960–1964 гг., Москва. Оказалось, что параметр 3 ведет себя следующим образом:
Разница между значениями параметра 3 для ранних МЕЛКИХ рассказов Чехова (I–V тома) и для более КРУПНЫХ повестей и рассказов позднего периода его творчества (VI–VIII тома) — достаточно ощутима, рис. d3.8. Причем в ранних МЕЛКИХ рассказах не только МЕНЬШЕ служебных слов, но главное заключается в том, что разброс их больше, чем в последующих КРУПНЫХ произведениях. БОЛЬШИЕ (поздние) тексты Чехова характеризуются ВЫСОКОЙ СТАБИЛЬНОСТЬЮ авторского инварианта, как впрочем, и для всех других 26 авторов БОЛЬШИХ текстов из нашего списка. В этом смысле Чехов не выделяется на их фоне — параметр 3 прекрасно «обслуживает» все его БОЛЬШИЕ сочинения.