Читаем Исключение как правило полностью

неслучайное сочетание двух и более лексических единиц, характерное как для языка в целом (текстов любого типа), так и определенного типа текстов (или даже (под)выборки текстов) [Ягунова, Пивоварова 2011:575].

Это расширенное понимание коллокаций несколько противоречит более строгому, собственно лингвистическому, пониманию коллокаций как единиц, имеющих связанное, некомпозициональное значение [Мельчук 1960; Melcuk 1995а; Борисова 1995; Кустова 2008в и др.]. С другой стороны, такой подход позволяет включить широкий и, надо сказать, слабо оформленный список единиц, предполагающий дальнейшую более строгую классификацию, исходящую не из теоретических предпосылок, а из закономерностей, выявляемых в реальном массиве языковых данных.

Для выявления коллокаций в тексте корпусная лингвистика использует специальные инструменты, которые основываются на предположении, что частота коллокаций должна быть более значимой, чем у каждой из входящих в нее единиц по отдельности. Для измерения совместной встречаемости используются специальные статистические инструменты, которые получили название «меры устойчивости»; к ним относятся тесты MI, T-score, log-likelihood и некоторые другие (см. [Pecina 2005; Браславский, Соколов 2006; Хохлова 2008]). Надо сказать, что существующие в настоящий момент методы автоматического извлечения коллокаций нельзя признать совершенными, как минимум, в двух отношениях: во-первых, с их помощью извлекается очень разнородный набор устойчивых единиц, во-вторых, полнота извлечения далека от стопроцентной.

Важно понимать, что анализ частоты совместной встречаемости не позволяет автоматически извлекать фразеологизмы в лингвистическом смысле этого слова, то есть единицы с некомпозициональным сочетанием значений. Однако анализ больших текстовых массивов позволяет выявить единицы, занимающие положение между свободными сочетаниями и связанными фразеологизмами – «неслучайное сочетание двух и более лексических единиц». Приведенная ниже в качестве примера таблица показывает, какие двухсловные коллокаций извлекаются из одного и того же корпуса (коллекция текстов портала www.lenta.ru, объем 66 млн текстоформ) с помощью двух разных мер устойчивости (использованы данные из работы [Ягунова, Пивоварова 2010][32]).

Совершенно очевидно, что эти списки очень неоднородны. В них попадают:

– знаменательные лексические фразеологизмы (голубые фишки, тройская унция);

– незнаменательные лексические фразеологизмы, о которых шла речь выше (при этом, кроме того);

– фрагменты бо́льших конструкций ([в] связи с [чем], в результате [чего]);

– неидиоматизированные устойчивые сочетания (сообщает РИА, дельта Нигера, миллион долларов).

– составные имена собственные (Арбат Престиж, Ролан Гаррос) Повторим еще раз: в таблице представлены результаты автоматической работы алгоритма, которые не могут считаться ни полными, ни однородными. Однако теоретическое осмысление этих результатов позволяет заново поставить вопрос о соотношении устойчивости и идиоматичности (см. [Мельчук I960]), с одной стороны, и адекватности существующих классификаций – с другой.

Разрабатываемый под руководством одного из авторов этой книги алгоритм поиска устойчивых сочетаний усложняет эту задачу, позволяя определять устойчивость не только лексических, но и грамматических параметров для произвольной цепочки единиц (см. [Kopotev et al. 2013]). Этот алгоритм отвечает на вопрос, что и с какой вероятностью появится после конкретного слова или цепочки слов. Он находит ответы на такие, например, вопросы:

– Какая морфологическая категория оказывается наиболее устойчивой для этой позиции?

– Какое значение этой морфологической категории наиболее устойчиво?

– Что устойчивее: конкретные лексические единицы или морфологические параметры (например, падеж) с открытым списком лексем?

Использованная статистическая модель помогает распределить частоты морфологических признаков и лексических единиц на единой шкале, с тем чтобы определить наиболее стабильные параметры. Предложенный алгоритм отвечает на вопрос об измерении совместной встречаемости и морфологических признаков, и лексических единиц. Например, с помощью алгоритма можно установить, что после глагола греть мы с высокой вероятностью ожидаем: форму винительного падежа существительного греть + N.acc, лексему в составе фразеологизма греть душу и лексему в составе устойчивого, но не фразеологизированного выражения греть воду. Вместе с тем причины совместной встречаемости могут лежать в совершенно разных областях, что, безусловно, нуждается в теоретическом осмыслении.

Перейти на страницу:

Все книги серии Studia Philologica

Флейта Гамлета: Очерк онтологической поэтики
Флейта Гамлета: Очерк онтологической поэтики

Книга является продолжением предыдущей книги автора – «Вещество литературы» (М.: Языки славянской культуры, 2001). Речь по-прежнему идет о теоретических аспектах онтологически ориентированной поэтики, о принципах выявления в художественном тексте того, что можно назвать «нечитаемым» в тексте, или «неочевидными смысловыми структурами». Различие между двумя книгами состоит в основном лишь в избранном материале. В первом случае речь шла о русской литературной классике, здесь же – о классике западноевропейской: от трагедий В. Шекспира и И. В. Гёте – до романтических «сказок» Дж. Барри и А. Милна. Героями исследования оказываются не только персонажи, но и те элементы мира, с которыми они вступают в самые различные отношения: вещества, формы, объемы, звуки, направления движения и пр. – все то, что составляет онтологическую (напрямую нечитаемую) подоплеку «видимого», явного сюжета и исподволь оформляет его логику и конфигурацию.

Леонид Владимирович Карасев

Культурология / Языкознание, иностранные языки / Языкознание / Образование и наука
Япония: язык и культура
Япония: язык и культура

Первостепенным компонентом культуры каждого народа является языковая культура, в которую входят использование языка в тех или иных сферах жизни теми или иными людьми, особенности воззрений на язык, языковые картины мира и др. В книге рассмотрены различные аспекты языковой культуры Японии последних десятилетий. Дается также критический анализ японских работ по соответствующей тематике. Особо рассмотрены, в частности, проблемы роли английского языка в Японии и заимствований из этого языка, форм вежливости, особенностей женской речи в Японии, иероглифов и других видов японской письменности. Книга продолжает серию исследований В. М. Алпатова, начатую монографией «Япония: язык и общество» (1988), но в ней отражены изменения недавнего времени, например, связанные с компьютеризацией.Электронная версия данного издания является собственностью издательства, и ее распространение без согласия издательства запрещается.

Владимир Михайлович Алпатов , Владмир Михайлович Алпатов

Культурология / Языкознание, иностранные языки / Языкознание / Образование и наука

Похожие книги

Агония и возрождение романтизма
Агония и возрождение романтизма

Романтизм в русской литературе, вопреки тезисам школьной программы, – явление, которое вовсе не исчерпывается художественными опытами начала XIX века. Михаил Вайскопф – израильский славист и автор исследования «Влюбленный демиург», послужившего итоговым стимулом для этой книги, – видит в романтике непреходящую основу русской культуры, ее гибельный и вместе с тем живительный метафизический опыт. Его новая книга охватывает столетний период с конца романтического золотого века в 1840-х до 1940-х годов, когда катастрофы XX века оборвали жизни и литературные судьбы последних русских романтиков в широком диапазоне от Булгакова до Мандельштама. Первая часть работы сфокусирована на анализе литературной ситуации первой половины XIX столетия, вторая посвящена творчеству Афанасия Фета, третья изучает различные модификации романтизма в предсоветские и советские годы, а четвертая предлагает по-новому посмотреть на довоенное творчество Владимира Набокова. Приложением к книге служит «Пропащая грамота» – семь небольших рассказов и стилизаций, написанных автором.

Михаил Яковлевич Вайскопф

Языкознание, иностранные языки