Читаем Цифровой журнал «Компьютерра» № 110 полностью

ABBYY обошлась без чужих денег и это спасло Compreno, позволив довести до победного конца проект со столь колоссальными материальными и людскими затратами.

Успех обеспечил и правильный изначальный выбор направления для разработки системы автоматического перевода. В 90-е в мире правила одна королева — Rule-Based Translation Model, классическая модель перевода, основанная на ограниченном наборе готовых правил для некоторой пары языков. Одна из проблем RBTM — в накоплении все новых и новых правил, которые в какой-то момент просто начинают конфликтовать между собой. Анализируя предложение, мы можем применить разные комплекты правил, при этом машине неведомы приоритеты. Перевод, основанный на RBTM, как правило, не озабочен полным синтаксическим анализом: вместо него предложение делится на фреймы, на которые затем интерполируют существующие в системе правила для получения перевода. RBMT системы не учитывают семантику.

В начале XXI века усилиями Google мир подсел на иглу нового алгоритма перевода — так называемой статистической модели. Основа СМ — наличие обширной базы разнонаправленных переводов. Мы задаем статистическому движку предложение для перевода, он ищет в базе данных как в словаре варианты уже существующих переводов аналогичного текста и после незначительных изменений выдает вполне приличный результат.

Изменения не самые существенные. Предположим нам нужно перевести предложение «в комнате стоит красный стул», а в статистической базе уже есть переведенная фраза «в комнате стоит зеленый стол» — решение элементарно: берется уже существующий шаблон перевода и новые слова просто заменяются по словарю.

Поскольку в СМ используются уже готовые человеческие переводы заведомо высокого качества, то на выходе получается весьма недурственный результат, ибо для осуществления перевода не нужно погружаться в синтаксис, специфику фразеологии конкретного языка и проч.

Все замечательно, однако, лишь до тех пор, пока дело не касается переводов в направлениях с так называемым низким покрытием (скажем, каким-нибудь, румынско-русским или тайско-венгерским).

Где брать аналоги? По словам Сергея Андреева опасность подстерегает также при уходе в предметные области на массовых направлениях, потому что параллельных текстов становится сильно меньше, чем в бытовой и разговорной тематике. Сочетание ухода в предметную область и не самого массового направления перевода приводит к слабым результатам. Скажем, IT. Казалось бы, какие сложности могут возникнуть у машинного перевода с текстом на тему информационных технологий? В самом деле — никаких, если мы занимаемся русско-английским переводом. Зато они тут же возникнут на русско-французской ниве! Статистическая база в этом направлении чрезвычайно скудная и лакуны возникают на каждом шагу.

Выход в рамках СМ для подобных ситуаций найден лишь паллиативный: работая с языками / темами низкого покрытия в качестве посредника используется английский язык. То есть сперва делается перевод с русского на английский, а затем уже с английского на, скажем, румынский, или тайский. В результате получается очень заметное снижение качества перевода.

Самое печальное, что проблема с плотностью покрытия в рамках СМ никак не решается принципиально. Единственный выход: нанять сотни тысяч переводчиков и заставить их заполнять лакуны по всем направлениям с низким статистическим покрытием. Как вы понимаете, никто это делать не сможет и не будет.

Помимо сложностей с низкой плотностью переводов по направлениям, выпадающим из узкого мейнстрима, у СМ еще множество мелких изъянов. Например, статистическая модель совершенно убого справляется с переводами имен собственных. Многие помнят о переводе Ющенко, как Януковича, а России как Канады. Отрицание (частичка «не») — это очень сложное препятствие. Частичку «не» можно правильно позиционировать в результате лингвистического анализа текста, а СМ таковым не занимается. В результате предложения, содержащие отрицание, часто переводятся движками на статистической модели с точностью до наоборот.

Как бы там ни было, ABBYY изначально отказалась от Rule Based Translation Model и замахнулась на систему компьютерного перевода нового поколения. Надо сказать, что придумывать особо ничего не требовалось. Универсальный язык понятий существует в структурной лингвистике в виде давней и несбыточной мечты еще со времен Людвига Витгенштейна. Даже Наум Хомский в своих ранних трудах лишь углублял существующую утопию.

Проект Compreno исходил из трех основополагающих посылок:

- использование качественного и бескомпромиссного синтаксического анализа.

- создание универсальной когнитивной модели языка, возможность которой определяется аксиомой о том, что люди, хоть и живут в разных условиях и говорят на разных языках, однако в массе своей мыслят одинаково. Формы выражения мысли разные, а вот понятийный аппарат совпадает.

Перейти на страницу:

Все книги серии Журнал «Компьютерра»

Цифровой журнал «Компьютерра» № 1
Цифровой журнал «Компьютерра» № 1

СОДЕРЖАНИЕ НОМЕРА:В Новый год — в новых форматах. Автор: Сергей Вильянов.Железо-2009: победы и достижения. Автор: Алексей Стародымов.BrowserLinux: проще некуда. Автор: Андрей Крупин.4G. Шанс России преодолеть цифровой разрыв. Автор: Юрий Домбровский.Beyerdynamic DTX 60 и MMX 100: ушки-люкс. Автор: Константин Иванов.Тысяча душ. Автор: Василий Щепетнев.Самые ожидаемые программные продукты 2010 года. Автор: Андрей Крупин.Новогодние подарки — советы по выбору гаджетов. Автор: Игорь Осколков.Корпус Zalman GS1000 Plus: пять с плюсом. Автор: Константин Иванов.2009 год глазами IT-бизнеса (обновлено). Автор: Марина Пелепец.Голубятня: Антихрист. Автор: Сергей Голубицкий.Приручение Коалы или два месяца с Ubuntu 9.10. Авторы: Григорий Рудницкий, Андрей Крупин.Обзор нетбука Manli iii M3. Автор: Игорь Осколков.Gazzetta, журнал, programma… Автор: Ваннах Михаил.Можно ли нарисовать улицу на картах Nokia? Автор: Георгий Киселев.Новогодние подарки — советы по выбору нетбуков и ноутбуков. Автор: Игорь Осколков.Программные алкотестеры. Автор: Андрей Крупин.Будущее Интернета. Автор: Михаил Карпов.Ни слова о Жомини. Автор: Василий Щепетнев.Беседы о современной физике. Автор: Алла Аршинова.Что готовит нам 2010 год. Автор: Алексей Лукацкий.Голубятня: Нефилимы. Автор: Сергей Голубицкий.Новогодние украшательства Windows. Автор: Андрей Крупин.Компьютеррные события года. Авторы: Сергей Вильянов, Василий Щепетнев, Юрий Ревич, Анатолий Вассерман, Козловский Евгений, Андрей Крупин, Михаил Карпов, Алексей Стародымов, Игорь Осколков.Море возможностей. Автор: Сергей Еремин.Logitech: необычная гарантия. Автор: Алексей Стародымов.Новогодние подарки — советы по выбору телефонов и смартфонов. Автор: Игорь Осколков.

Журнал «Компьютерра» , Компьютерра

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Цифровой журнал «Компьютерра» № 2
Цифровой журнал «Компьютерра» № 2

СОДЕРЖАНИЕ НОМЕРА:За что могут посадить компьютерщика? Автор: Майор Мышкин.И для VAS, и для нас. Автор: Сергей Вильянов.Новинки CES 2010. Избранное. Автор: Алексей Стародымов.Голубятня: Золотой ключик. Автор: Сергей Голубицкий.Чаевые как новая парадигма бизнеса. Автор: Михаил Куцов.Обзор док-станции для жёстких дисков IcyBox IB-110. Автор: Игорь Осколков.CES 2010: мобильная связь. Автор: Алексей Стародымов.Василий Щепетнёв: О пользе волшебства. Автор: Василий Щепетнев.Частное охранное предприятие времён киберпанка. Автор: Ваннах Михаил.Голубятня: Факевар. Автор: Сергей Голубицкий.Кивино гнездо: Симулятор религии.Кулеры под LGA1156. Автор: Константин Иванов.Как я работал корпоративным программистом. Автор: Iseman ICEBERG.Василий Щепетнёв: Продолжение думы о пятачке. Автор: Василий Щепетнев.Обзор плеера Sony Walkman NWZ-E440. Автор: Алексей Стародымов.Голубятня: Файнридер 10. Автор: Сергей Голубицкий.Сергей Орловский (Nival): А на десерт будет полноценная модель мира. Автор: Марина Пелепец.Апокалипсис вчера, сегодня, завтра. Автор: Анатолий Вассерман.Голубятня: Симплиций о ДЕГе. Автор: Сергей Голубицкий.Агентство завтрашних проблем.

Журнал «Компьютерра» , Компьютерра

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Цифровой журнал «Компьютерра» № 3
Цифровой журнал «Компьютерра» № 3

ОглавлениеBETT 2010: каким мир видит образование будущего? Автор: Сергей ВильяновКивино гнездо: Подбит на взлёте Автор: БЕРД КИВИПротиворакеты Поднебесной Автор: Ваннах МихаилИнтерактивное видео Автор: Максим РудольскийПочему Google уходит из Китая? Автор: Тимофей БахваловВасилий Щепетнёв: Усмиритель Хаоса или Последний декрет Ильича — 2 Автор: Василий ЩепетневКомпьютер в школе: панацея или плацебо? Автор: Сергей ВильяновNexus One — андроидный провал Автор: Фадеев МихаилWindows Mobile в шкуре Google Android Автор: Андрей КрупинОт 430 до 500 Вт: блоки питания на любой случай, часть 1 Автор: Константин ИвановМедиацентр Boxee: первый социальный Автор: Андрей КрупинГолубятня: Сидр № 1 Автор: Сергей ГолубицкийGoogle в КНР: взгляд с другой стороны Авторы: Алексей Стародымов, Марина ПелепецПочему чаевые не спасут онлайн Автор: Иван КошуриновСервисы деактивации троянов-вымогателей Автор: Андрей КрупинЛестница для предпринимателей Автор: Сергей ЕреминКивино гнездо: Сюжет из «Плейбоя» Автор: БЕРД КИВИВасилий Щепетнёв: Последний декрет Ильича Автор: Василий ЩепетневО судьбах Symbian Автор: Алексей СтародымовPackard Bell Easynote TJ65 — хорошо сбалансированный ноутбук Автор: Игорь ОсколковОнлайновые альтернативы Microsoft PowerPoint Автор: Андрей КрупинPanasonic Lumix DMC-TZ7: ультра-ZOOMО возможности предсказания будущего Автор: Ваннах МихаилЗарядись от солнца Автор: Константин ИвановDefenseWall Personal Firewall: очное знакомство Автор: Андрей КрупинЗа что могут посадить компьютерщика? Автор: Майор МышкинИ для VAS, и для нас Автор: Сергей ВильяновНовинки CES 2010. Избранное Автор: Алексей СтародымовГолубятня: Золотой ключик Автор: Сергей Голубицкий

Журнал «Компьютерра» , Коллектив Авторов , Компьютерра Журнал

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Цифровой журнал «Компьютерра» № 4
Цифровой журнал «Компьютерра» № 4

ОглавлениеА где же ГЛОНАСС? Автор: Марина ПелепецНоябрьский приз Автор: Игорь ТереховКивино гнездо: Даёшь молодежь! Автор: БЕРД КИВИСчастливое ПО Автор: Alienatio MentaleЦифровые технологии и английские школьницы Автор: Сергей ВильяновВасилий Щепетнёв: О совпадениях Автор: Василий ЩепетневGlobal Mobile Awards 2010: забавные номинанты Автор: Алексей СтародымовYlmf OS: китайский клон Windows XP Автор: Андрей КрупинLeadtek WinFast PxVC1100 — ускоритель кодирования видео Автор: Игорь ОсколковО производстве, портках и логистике Автор: Ваннах Михаил"Компьютерра" в FB2: всё готово Автор: Сергей ВильяновInternet Explorer под ударом Автор: Андрей КрупинБольшая новость Nokia Автор: Алексей СтародымовГолубятня: Коммуникатор в дорогу Автор: Сергей ГолубицкийВасилий Щепетнёв: Прогулка под присмотром Автор: Василий ЩепетневОблачная веб-система Glide OS Автор: Андрей КрупинБилл Гейтс, Facebook и Twitter Автор: Алексей СтародымовКивино гнездо: Акустическая иллюзия Автор: БЕРД КИВИОперационные системы и маркетинговый взгляд Автор: Алексей СаминскийICQ: седьмое пришествие Автор: Андрей КрупинМини-противостояние: Jetway против Zotac Автор: Константин Иванов"Компьютерра" в формате FB2: релиз-кандидат Автор: Сергей ВильяновВасилий Щепетнёв: Ловцы мгновений Автор: Василий Щепетнев

Журнал «Компьютерра» , Коллектив Авторов , Компьютерра Журнал

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT

Похожие книги