Читаем Компьютерра PDA N166 (31.03.2012-06.04.2012) полностью

— "Вы же работали тогда-то в такой-то школе?" — "Да, работал". — "Вы тогда объясняли нам разницу мужских и женских стратегий, я по молодости Вас не поняла, и моя мама ходила к директору..."

Я объяснил девушке, что ничего не помню, и прервал разговор. Вскоре я увидел коллегу, который тоже работал в упомянутой школе, и пересказал ему этот разговор. Тот искренне удивился: "Как ты можешь её не помнить, если тебя выперли из-за неё?" Он рассказал то, чему я был вынужден поверить. В специальном (!) курсе, посвящённом эволюции, я, кроме прочего, объяснил выпускникам (!) биологического (!) класса примерно то, что излагал в этихтрёхколонках. Одна девушка поняла меня неверно (можно ли её за это осуждать?). Она пересказала то, что поняла, своей матери. Та истолковала мои пояснения ещё превратнее и захотела обсудить их с директором. В результате я перестал работать в этом заведении.

Кое-что о своей работе в этой школе я помню. Например, я начал там работать вместе с толковым школьником, который поступил к нам университет, с успехом защитил диплом по зелёным лягушкам под моим руководством и сейчас прекрасно чувствует себя в Швеции. А вот эту девушку и всю связанную с ней историю я забыл. Интересно, почему?

Если бы наша рефлексия была безукоризненной, наверное, такие ситуации не возникали бы... Но что мы знаем о нашей способности к рефлексии? Как она возникла?

Об этом как-нибудь в иной раз...

<p id="sec_7">Голубятня: Ударим графематикой по графомании!</p>

Автор: Сергей Голубицкий

Опубликовано 05 апреля 2012 года

Писатель: Я писатель!

Читатель: А по-моему, ты говно!

(Писатель стоит несколько минут, потрясённый этой новой идеей, и падает замертво. Его выносят.) 

Даниил Хармс

Культур-повидлианствовать сегодня будем в пандан софтверному аппендиксу. В смысле, что не традиционный не пришей-к-красной-армии-рукав, а одно вытекает из другого, да и связано напрямую.

Разговор пойдет о разработке наших ученых-соотечественников, бороздящих ниву на стыке самых перспективных отраслей знания: структурно-прикладной лингвистики и компьютерных технологий. 

Если с компьютерами вопросов, обычно, не возникает, то роль лингвиста почему-то в общественном сознании откровенно не дотягивает до заслуженного места. В лучшем случае, обывателю приходит в голову: переводчик какой-то! Если на пике славы, то - Гоблин. Больше ничего. Неужели придется дожидаться эпохи «Stargate» (помните еще культовый фильм Роланда Эммериха?), чтобы понять, что лингвист - это главный пророк нашей цивилизации (астролог, Дельфийский оракул и компьютерный томограф в одном флаконе!)?

Эк меня понесло! Короче говоря, один из разработчиков, Дмитрий Силницкий, зная о моих слабостях в сфере интерпретации смыслов и дата-майнинга, прислал на тестирование демо-версию совершенно уникального движка, который выполняет сравнительный анализ текстов по авторскому стилю и жанру.  

При этом движок понятия не имеет о существовании автора имярек, да и вообще не догадывается о смысле слов и денотатах в принципе. Основа движка -  графематический анализ, оперирующий лишь цепочками языковых символов -  знаками, буквами и словоформами!

Для хотя бы приблизительного объяснения этого монстра позволю небольшую цитату из теоретического сопровождения разработок (текст Игоря Ножова из РГГУ): 

«Основная цель графематического блока получить выборку полных словоформ из массива текстов базы данных.  Графематический анализ работает с внешним представлением текста и использует таблицу стоп-слов. В этой таблице хранятся цифры, спецсимволы и частотные слова языка, нерелевантные для поиска по текстам.

Графематический анализ выполняет три функции:

1. отсечение стоп-слов в тексте;

2. разбиение данных на три потока;

3. индексация каждого потока.

Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных:

- цифровые и символьные комплексы (‘кг’, ‘ст.’, ’12.01.99’);

- аббревиатуры - названия государств, организаций, предприятий (‘СССР’, ‘ЮНЕСКО’, ‘ДорСтройСервис’);

- полные словоформы»

В результате столь необычного и внешне совершенно схоластического анализа мы получаем более, чем осмысленные результаты. Именно созерцание практических результатов произвело на меня неизгладимое впечатление.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии