Читаем Цифровой журнал «Компьютерра» № 110 полностью

- автоматизированное корпусное дообучение — лингвистические описания верифицируются и дополняются на основании статистической обработки корпусных данных.

Исходя из этих посылок была сформулирована идея Универсальной Семантической Иерархии (УСИ), способной описывать явления от общего к частному. На составление этой иерархии у ABBYY и ушло 15 лет. Получилось то, что вы уже знаете: только на сегодняшний день 70 тысяч понятий в универсальной части когнитивной модели, более 80 тысяч — в русской, более 90 — в английской.

Алгоритм машинного перевода, основанного на УСИ, выглядит следующим образом:

- Лексический анализ текста (выделение слов, знаков препинания, цифр и прочих текстовых единиц);

- Морфологический анализ (определение грамматических характеристик лексем);

- Синтаксический анализ (установление структуры предложения);

- Семантический анализ (выявление выражаемого значения в системе языка);

- Синтез из универсальной семантической структуры предложения на выходном языке.

В результате подбор слов для перевода осуществляется не напрямую из первого языка, а из понятийного набора, который, условно говоря, «висит» на той же ветке универсального семантического дерева, но только уже со стороны второго языка.

Поскольку модель УСИ сквозная, нижестоящие элементы системы по иерархии наследуют признаки вышестоящих элементов. Это простое, казалось бы, обстоятельство позволяет добиваться беспрецедентной точности машинного перевода, поскольку каждое слово из переводимого предложения описывается максимальным набором понятийных эквивалентов, причем не только видового, но и родовых качеств на всех уровнях смысловой иерархии.

В УСИ предусмотрены взаимосвязи между элементами структуры, относящимися к разным классам, и эти связи также структурированы и формализированы, что позволяет выполнять многоуровневый понятийный анализ текста, также повышающий качество перевода.

В процессе создания УСИ разработчикам открылись неожиданные грани использования системы: помимо машинного перевода язык УСИ можно использовать в интеллектуальных смысловых поисках и, возможно, автоматическом распознавании речи на новом качественном уровне, который достигается за счет глубокой интеграции и взаимопроникновения синтаксиса и семантики в модели универсальной семантической иерархии.

На альтернативных направлениях возникают, конечно, и свои сложности. Скажем, сегодня самым узким местом для глобального применения семантико-синтаксического анализа в массовых поисковых системах выступают очень высокие требования к компьютерным мощностям, необходимым для индексации информационных массивов на понятийном уровне. Требования эти несоизмеримо выше, чем при существующих формах традиционной индексации. Впрочем, уже сегодня методика семантико-синтаксического анализа может эффективно применяться (и применяется ABBYY — видел полностью функциональный прототип поискового движка собственными глазами) для более целенаправленного и узкого поиска в закрытых корпоративных системах.

Мировых аналогов у Compreno сегодня нет, хотя в некоторых университетах и ведутся разработки в аналогичных направления. Однако фора в 15 лет, задействованные огромные человеческие ресурсы и материальные затраты позволяют надеяться, что ABBYY таки сумеет застолбить для себя эксклюзивное место первопроходца. На руку компании играет и то обстоятельство, что последние 10 лет подавляющая масса исследований в мире велась в русле статистической модели машинного перевода.

За теоретическим введением в Compreno последовало более чем часовое погружение в демонстрацию работы движка компьютерного перевода, основанного на УСИ. Я сидел в одном из конференц-залов офиса ABBYY и непрестанно протирал глаза, все еще до конца не веря в услышанное и увиденного.

Теперь пользуюсь разрешением и демонстрирую читателям сравнение переводов, выданных Compreno и статистическим переводчиком (каким — гостеприимные хозяева просили не называть, но думаю, не маленькие и сами догадаетесь ☺

Не сомневаюсь, что для любого человека, знающего толк в переводах, это сравнение откроет новую вселенную. Вот работа статистического переводчика (разумеется, предложения подобранны специально «поддых», поскольку бьют в самые слабые места статистической модели перевода).

Это, господа, просто другой космос, другой уровень понимания текста. Это — революция!

Смотрел я на это, слушал внимательно и, похоже, начал улавливать тайный смысл (шуточного) мотивационного плаката, висящего в одном из офисных коридоров ABBYY:

К оглавлению

Перейти на страницу:

Все книги серии Журнал «Компьютерра»

Цифровой журнал «Компьютерра» № 1
Цифровой журнал «Компьютерра» № 1

СОДЕРЖАНИЕ НОМЕРА:В Новый год — в новых форматах. Автор: Сергей Вильянов.Железо-2009: победы и достижения. Автор: Алексей Стародымов.BrowserLinux: проще некуда. Автор: Андрей Крупин.4G. Шанс России преодолеть цифровой разрыв. Автор: Юрий Домбровский.Beyerdynamic DTX 60 и MMX 100: ушки-люкс. Автор: Константин Иванов.Тысяча душ. Автор: Василий Щепетнев.Самые ожидаемые программные продукты 2010 года. Автор: Андрей Крупин.Новогодние подарки — советы по выбору гаджетов. Автор: Игорь Осколков.Корпус Zalman GS1000 Plus: пять с плюсом. Автор: Константин Иванов.2009 год глазами IT-бизнеса (обновлено). Автор: Марина Пелепец.Голубятня: Антихрист. Автор: Сергей Голубицкий.Приручение Коалы или два месяца с Ubuntu 9.10. Авторы: Григорий Рудницкий, Андрей Крупин.Обзор нетбука Manli iii M3. Автор: Игорь Осколков.Gazzetta, журнал, programma… Автор: Ваннах Михаил.Можно ли нарисовать улицу на картах Nokia? Автор: Георгий Киселев.Новогодние подарки — советы по выбору нетбуков и ноутбуков. Автор: Игорь Осколков.Программные алкотестеры. Автор: Андрей Крупин.Будущее Интернета. Автор: Михаил Карпов.Ни слова о Жомини. Автор: Василий Щепетнев.Беседы о современной физике. Автор: Алла Аршинова.Что готовит нам 2010 год. Автор: Алексей Лукацкий.Голубятня: Нефилимы. Автор: Сергей Голубицкий.Новогодние украшательства Windows. Автор: Андрей Крупин.Компьютеррные события года. Авторы: Сергей Вильянов, Василий Щепетнев, Юрий Ревич, Анатолий Вассерман, Козловский Евгений, Андрей Крупин, Михаил Карпов, Алексей Стародымов, Игорь Осколков.Море возможностей. Автор: Сергей Еремин.Logitech: необычная гарантия. Автор: Алексей Стародымов.Новогодние подарки — советы по выбору телефонов и смартфонов. Автор: Игорь Осколков.

Журнал «Компьютерра» , Компьютерра

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Цифровой журнал «Компьютерра» № 2
Цифровой журнал «Компьютерра» № 2

СОДЕРЖАНИЕ НОМЕРА:За что могут посадить компьютерщика? Автор: Майор Мышкин.И для VAS, и для нас. Автор: Сергей Вильянов.Новинки CES 2010. Избранное. Автор: Алексей Стародымов.Голубятня: Золотой ключик. Автор: Сергей Голубицкий.Чаевые как новая парадигма бизнеса. Автор: Михаил Куцов.Обзор док-станции для жёстких дисков IcyBox IB-110. Автор: Игорь Осколков.CES 2010: мобильная связь. Автор: Алексей Стародымов.Василий Щепетнёв: О пользе волшебства. Автор: Василий Щепетнев.Частное охранное предприятие времён киберпанка. Автор: Ваннах Михаил.Голубятня: Факевар. Автор: Сергей Голубицкий.Кивино гнездо: Симулятор религии.Кулеры под LGA1156. Автор: Константин Иванов.Как я работал корпоративным программистом. Автор: Iseman ICEBERG.Василий Щепетнёв: Продолжение думы о пятачке. Автор: Василий Щепетнев.Обзор плеера Sony Walkman NWZ-E440. Автор: Алексей Стародымов.Голубятня: Файнридер 10. Автор: Сергей Голубицкий.Сергей Орловский (Nival): А на десерт будет полноценная модель мира. Автор: Марина Пелепец.Апокалипсис вчера, сегодня, завтра. Автор: Анатолий Вассерман.Голубятня: Симплиций о ДЕГе. Автор: Сергей Голубицкий.Агентство завтрашних проблем.

Журнал «Компьютерра» , Компьютерра

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Цифровой журнал «Компьютерра» № 3
Цифровой журнал «Компьютерра» № 3

ОглавлениеBETT 2010: каким мир видит образование будущего? Автор: Сергей ВильяновКивино гнездо: Подбит на взлёте Автор: БЕРД КИВИПротиворакеты Поднебесной Автор: Ваннах МихаилИнтерактивное видео Автор: Максим РудольскийПочему Google уходит из Китая? Автор: Тимофей БахваловВасилий Щепетнёв: Усмиритель Хаоса или Последний декрет Ильича — 2 Автор: Василий ЩепетневКомпьютер в школе: панацея или плацебо? Автор: Сергей ВильяновNexus One — андроидный провал Автор: Фадеев МихаилWindows Mobile в шкуре Google Android Автор: Андрей КрупинОт 430 до 500 Вт: блоки питания на любой случай, часть 1 Автор: Константин ИвановМедиацентр Boxee: первый социальный Автор: Андрей КрупинГолубятня: Сидр № 1 Автор: Сергей ГолубицкийGoogle в КНР: взгляд с другой стороны Авторы: Алексей Стародымов, Марина ПелепецПочему чаевые не спасут онлайн Автор: Иван КошуриновСервисы деактивации троянов-вымогателей Автор: Андрей КрупинЛестница для предпринимателей Автор: Сергей ЕреминКивино гнездо: Сюжет из «Плейбоя» Автор: БЕРД КИВИВасилий Щепетнёв: Последний декрет Ильича Автор: Василий ЩепетневО судьбах Symbian Автор: Алексей СтародымовPackard Bell Easynote TJ65 — хорошо сбалансированный ноутбук Автор: Игорь ОсколковОнлайновые альтернативы Microsoft PowerPoint Автор: Андрей КрупинPanasonic Lumix DMC-TZ7: ультра-ZOOMО возможности предсказания будущего Автор: Ваннах МихаилЗарядись от солнца Автор: Константин ИвановDefenseWall Personal Firewall: очное знакомство Автор: Андрей КрупинЗа что могут посадить компьютерщика? Автор: Майор МышкинИ для VAS, и для нас Автор: Сергей ВильяновНовинки CES 2010. Избранное Автор: Алексей СтародымовГолубятня: Золотой ключик Автор: Сергей Голубицкий

Журнал «Компьютерра» , Коллектив Авторов , Компьютерра Журнал

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Цифровой журнал «Компьютерра» № 4
Цифровой журнал «Компьютерра» № 4

ОглавлениеА где же ГЛОНАСС? Автор: Марина ПелепецНоябрьский приз Автор: Игорь ТереховКивино гнездо: Даёшь молодежь! Автор: БЕРД КИВИСчастливое ПО Автор: Alienatio MentaleЦифровые технологии и английские школьницы Автор: Сергей ВильяновВасилий Щепетнёв: О совпадениях Автор: Василий ЩепетневGlobal Mobile Awards 2010: забавные номинанты Автор: Алексей СтародымовYlmf OS: китайский клон Windows XP Автор: Андрей КрупинLeadtek WinFast PxVC1100 — ускоритель кодирования видео Автор: Игорь ОсколковО производстве, портках и логистике Автор: Ваннах Михаил"Компьютерра" в FB2: всё готово Автор: Сергей ВильяновInternet Explorer под ударом Автор: Андрей КрупинБольшая новость Nokia Автор: Алексей СтародымовГолубятня: Коммуникатор в дорогу Автор: Сергей ГолубицкийВасилий Щепетнёв: Прогулка под присмотром Автор: Василий ЩепетневОблачная веб-система Glide OS Автор: Андрей КрупинБилл Гейтс, Facebook и Twitter Автор: Алексей СтародымовКивино гнездо: Акустическая иллюзия Автор: БЕРД КИВИОперационные системы и маркетинговый взгляд Автор: Алексей СаминскийICQ: седьмое пришествие Автор: Андрей КрупинМини-противостояние: Jetway против Zotac Автор: Константин Иванов"Компьютерра" в формате FB2: релиз-кандидат Автор: Сергей ВильяновВасилий Щепетнёв: Ловцы мгновений Автор: Василий Щепетнев

Журнал «Компьютерра» , Коллектив Авторов , Компьютерра Журнал

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT

Похожие книги