Читаем Компьютерра PDA N161 (25.02.2012-02.03.2012) полностью

Успех обеспечил и правильный изначальный выбор направления для разработки системы автоматического перевода. В 90-е в мире правила одна королева - Rule-Based Translation Model, классическая модель перевода, основанная на ограниченном наборе готовых правил для некоторой пары языков. Одна из проблем RBTM - в накоплении все новых и новых правил, которые в какой-то момент просто начинают конфликтовать между собой. Анализируя предложение, мы можем применить разные комплекты правил, при этом машине неведомы приоритеты. Перевод, основанный на RBTM, как правило, не озабочен полным синтаксическим анализом: вместо него предложение делится на фреймы, на которые затем интерполируют существующие в системе правила для получения перевода. RBMT системы не учитывают семантику.

В начале XXI века усилиями Google мир подсел на иглу нового алгоритма перевода - так называемой статистической модели. Основа СМ - наличие обширной базы разнонаправленных переводов. Мы задаем статистическому движку предложение для перевода, он ищет в базе данных как в словаре варианты уже существующих переводов аналогичного текста и после незначительных изменений выдает вполне приличный результат.

Изменения не самые существенные. Предположим нам нужно перевести предложение «в комнате стоит красный стул», а в статистической базе уже есть переведенная фраза «в комнате стоит зеленый стол» - решение элементарно: берется уже существующий шаблон перевода и новые слова просто заменяются по словарю.

Поскольку в СМ используются уже готовые человеческие переводы заведомо высокого качества, то на выходе получается весьма недурственный результат, ибо для осуществления перевода не нужно погружаться в синтаксис, специфику фразеологии конкретного языка и проч.

Все замечательно, однако, лишь до тех пор, пока дело не касается переводов в направлениях с так называемым низким покрытием (скажем, каким-нибудь, румынско-русским или тайско-венгерским).

Где брать аналоги? По словам Сергея Андреева опасность подстерегает также при уходе в предметные области на массовых направлениях, потому что параллельных текстов становится сильно меньше, чем в бытовой и разговорной тематике. Сочетание ухода в предметную область и не самого массового направления перевода приводит к слабым результатам. Скажем, IT. Казалось бы, какие сложности могут возникнуть у машинного перевода с текстом на тему информационных технологий? В самом деле - никаких, если мы занимаемся русско-английским переводом. Зато они тут же возникнут на русско-французской ниве! Статистическая база в этом направлении чрезвычайно скудная и лакуны возникают на каждом шагу.

Выход в рамках СМ для подобных ситуаций найден лишь паллиативный: работая с языками / темами низкого покрытия в качестве посредника используется английский язык. То есть сперва делается перевод с русского на английский, а затем уже с английского на, скажем, румынский, или тайский. В результате получается очень заметное снижение качества перевода.

Самое печальное, что проблема с плотностью покрытия в рамках СМ никак не решается принципиально. Единственный выход: нанять сотни тысяч переводчиков и заставить их заполнять лакуны по всем направлениям с низким статистическим покрытием. Как вы понимаете, никто это делать не сможет и не будет.

Помимо сложностей с низкой плотностью переводов по направлениям, выпадающим из узкого мейнстрима, у СМ еще множество мелких изъянов. Например, статистическая модель совершенно убого справляется с переводами имен собственных. Многие помнят о переводе Ющенко, как Януковича, а России как Канады. Отрицание (частичка «не») - это очень сложное препятствие. Частичку «не» можно правильно позиционировать в результате лингвистического анализа текста, а СМ таковым не занимается. В результате предложения, содержащие отрицание, часто переводятся движками на статистической модели с точностью до наоборот.

Как бы там ни было, ABBYY изначально отказалась от Rule Based Translation Model и замахнулась на систему компьютерного перевода нового поколения. Надо сказать, что придумывать особо ничего не требовалось. Универсальный язык понятий существует в структурной лингвистике в виде давней и несбыточной мечты еще со времен Людвига Витгенштейна. Даже Наум Хомский в своих ранних трудах лишь углублял существующую утопию.

Проект Compreno исходил из трех основополагающих посылок:

- использование качественного и бескомпромиссного синтаксического анализа.

- создание универсальной когнитивной модели языка, возможность которой определяется аксиомой о том, что люди, хоть и живут в разных условиях и говорят на разных языках, однако в массе своей мыслят одинаково. Формы выражения мысли разные, а вот понятийный аппарат совпадает.

- автоматизированное корпусное дообучение - лингвистические описания верифицируются и дополняются на основании статистической обработки корпусных данных.

Перейти на страницу:

Все книги серии Компьютерра PDA

Компьютерра PDA 03.04.2010-09.04.2010
Компьютерра PDA 03.04.2010-09.04.2010

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Светлее бледногоВасилий Щепетнев: Василий Щепетнёв: Цена верностиБерд Киви: Кивино гнездо: И биометрия на всех Николай Маслухин: Промзона: проект "Google-конверты" и диван-саквояжЮрий Ревич: Существуют ли государственные базы данных?Игорь Терехов: Flash посадили в "песочницу" ChromeМихаил Карпов: iPad: очереди, большие люди и хакерыЮрий Ильин: На что живёт Opera MiniВаннах Михаил: Кафедра Ваннаха: Информационные технологии и эскапизм Игорь Осколков: Что вычисляют российские суперкомпьютерыМихаил Карпов: Анатолий Вассерман: Пирамида МаслоуАндрей Письменный: Машинное обучение улучшило "Яндекс"Игорь Терехов: Проблемный BuzzВасилий Щепетнев: Василий Щепетнёв: Опоздавший к присягеИгорь Терехов: "Макхост" ушёл в оффлайнИрина Матюшонок: Почему Google отстаёт от "Яндекса"Андрей Письменный: Первые iPad, попавшие в Россию, скупают втридорогаОлег Парамонов: Первый взгляд на iPadНиколай Маслухин: Промзона: Светящиеся деньгиМихаил Карпов: Мартовский приз ReaditorialВаннах Михаил: Кафедра Ваннаха: Российская DARPA и гипотеза ФишераВиталий Губский: Надёжное железо (история и сегодняшние факты)Анатолий Вассерман: Досудебное помилованиеКрестников Евгений: Геоконтекстная реклама добралась до РоссииМихаил Карпов: В iPhone OS 4 появится многозадачностьБерд Киви: Кивино гнездо: Теневая сторона сетиНиколай Маслухин: Промзона: ножная мышьИгорь Осколков: Lenovo Thinkpad X100e – компактный ноутбук для бизнесаВасилий Щепетнев: Василий Щепетнёв: Власть и магияИгорь Терехов: Игровым приставкам настанет конецМихаил Карпов: Через три года мемристоры заменят транзисторы

Журнал «Компьютерра» , Компьютерра

Документальная литература / Прочая компьютерная литература / Прочая документальная литература / Документальное / Книги по IT
Компьютерра PDA 20.03.2010-26.03.2010
Компьютерра PDA 20.03.2010-26.03.2010

ОГЛАВЛЕНИЕВаннах Михаил: Кафедра Ваннаха: Пороки, ракеты, компьютеры Берд Киви: Кивино гнездо: Сеть на колёсахМихаил Карпов: Февральский призНиколай Маслухин: Промзона: Вязаный твиттер и дизайнерские светофорыМихаил Карпов: Samsung Forum 2010: робопылесосы NavibotАндрей Письменный: Opera наверстала отставание от других браузеровДмитрий Плесконос Развитие Интернета - один из приоритетовСергей Голубицкий: Голубятня: Непростой мальчик РобертЕвгений Крестников: Электронных денег станет больше, если их не запретятАнатолий Вассерман: Газоносные сланцыИгорь Терехов: Прощание с PalmЕвгений: Возраст честностиМихаил Карпов: Samsung Forum 2010: 3D-телевизорыВасилий Щепетнев: Василий Щепетнёв: Спецназ Леонардо в боюОлег Нечай: Ловушка номер 3D: о чём молчит рекламаЛеваков Владимир: Программы лояльности: чего не хватает российскому IT-рынку?Олег Данилов: Сколково открытий чудныхВаннах Михаил: Кафедра Ваннаха: Свобода и буржуазияРоман Георгиев: Грозовой перевал: кризис 3D-отрасли в РоссииМихаил Карпов: У новой приставки Nintendo будет стереоэкранЮрий Ревич: Политически корректные фильтрыАртём Алексеев: Виртуальная реальность нашей повседневностиИгорь Осколков: Arion рендерит световые волны параллельноОлег Нечай: Игрушечное кино: на что годятся пикопроекторыАндрей Письменный: Тег video делает Firefox устаревшим браузеромВасилий Щепетнев: Василий Щепетнёв: След жирафаАлександр Милицкий: УФАС - не указ?Анатолий Вассерман: Индивидуальный и массовый террорПоликарпов, Константин: Туманный экран PolivizorИгорь Терехов: Основатели Skype подались в инвесторыИгорь Осколков: Обзор интернет-устройства Viliv S5Михаил Карпов: Несколько вопросов по следам конференции MIXАндрей Письменный: CloudConf 2010: облачные вычисления в РоссииСергей Голубицкий: Голубятня: Миша, кока, деффкиИгорь Терехов: "Счастливый фермер" неплохо зарабатываетВаннах Михаил: Кафедра Ваннаха: Параллелизм в большом и малом мирахМихаил Карпов: The Beatles Rock Band: взгляд музыкантаРоман Георгиев: Грозовой перевал: российская 3D-анимацияЕвгений Крестников: В. Достов: "Когда мы защищаемся неизвестно от чего, платит всегда покупатель"Олег Нечай: Ёмкостные против резистивныхИгорь Терехов: Технологии будущего по версии Microsoft

Журнал «Компьютерра» , Компьютерра

Документальная литература / Прочая компьютерная литература / Прочая документальная литература / Документальное / Книги по IT
Компьютерра PDA N113 (28.05.2011-03.06.2011)
Компьютерра PDA N113 (28.05.2011-03.06.2011)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Начало продажВасилий Щепетнев: Василий Щепетнёв: Переход на летние деньгиЕвгений Крестников: Первый взгляд на Fedora Linux 15Евгений Лебеденко, Mobi.ru: Технология Gyricon: забытый электронный папирусВаннах Михаил: Кафедра Ваннаха: Цифровая шарага китайского образцаОлег Нечай: Путеводитель по настольным процессорам AMD (часть 1)Игорь Осколков: Обзор ноутбука Eurocom W860CU CougarВасилий Щепетнев: Василий Щепетнёв: Приказано иметь честьДмитрий Шабанов: Отпечатки пальцев и отпечатки мозгаСергей Голубицкий: Голубятня: Юбилейное откровениеКиви Берд: Кивино гнездо: На звон БитМонетВаннах Михаил: Кафедра Ваннаха: ТМО и парад геевОлег Нечай: Путеводитель по настольным процессорам AMD (часть 2)Берд Киви: На звон БитМонет (часть 2)Василий Щепетнев: Василий Щепетнёв: Просить и не проситьКиви Берд: Кивино гнездо: Зачем вам думать?

Журнал «Компьютерра» , Компьютерра

Документальная литература / Прочая компьютерная литература / Прочая документальная литература / Документальное / Книги по IT

Похожие книги

Хрущёвская слякоть. Советская держава в 1953–1964 годах
Хрущёвская слякоть. Советская держава в 1953–1964 годах

Когда мы слышим о каком-то государстве, память сразу рисует образ действующего либо бывшего главы. Так устроено человеческое общество: руководитель страны — гарант благосостояния нации, первейшая опора и последняя надежда. Вот почему о правителях России и верховных деятелях СССР известно так много.Никита Сергеевич Хрущёв — редкая тёмная лошадка в этом ряду. Кто он — недалёкий простак, жадный до власти выскочка или бездарный руководитель? Как получил и удерживал власть при столь чудовищных ошибках в руководстве страной? Что оставил потомкам, кроме общеизвестных многоэтажных домов и эпопеи с кукурузой?В книге приводятся малоизвестные факты об экономических экспериментах, зигзагах внешней политики, насаждаемых доктринах и ситуациях времён Хрущёва. Спорные постановления, освоение целины, передача Крыма Украине, реабилитация пособников фашизма, пресмыкательство перед Западом… Обострение старых и возникновение новых проблем напоминали буйный рост кукурузы. Что это — амбиции, нелепость или вредительство?Автор знакомит читателя с неожиданными архивными сведениями и другими исследовательскими находками. Издание отличают скрупулёзное изучение материала, вдумчивый подход и серьёзный анализ исторического контекста.Книга посвящена переломному десятилетию советской эпохи и освещает тогдашние проблемы, подковёрную борьбу во власти, принимаемые решения, а главное, историю смены идеологии партии: отказ от сталинского курса и ленинских принципов, дискредитации Сталина и его идей, травли сторонников и последователей. Рекомендуется к ознакомлению всем, кто родился в СССР, и их детям.

Евгений Юрьевич Спицын

Документальная литература
1937. Трагедия Красной Армии
1937. Трагедия Красной Армии

После «разоблачения культа личности» одной из главных причин катастрофы 1941 года принято считать массовые репрессии против командного состава РККА, «обескровившие Красную Армию накануне войны». Однако в последние годы этот тезис все чаще подвергается сомнению – по мнению историков-сталинистов, «очищение» от врагов народа и заговорщиков пошло стране только на пользу: без этой жестокой, но необходимой меры у Красной Армии якобы не было шансов одолеть прежде непобедимый Вермахт.Есть ли в этих суждениях хотя бы доля истины? Что именно произошло с РККА в 1937–1938 гг.? Что спровоцировало вакханалию арестов и расстрелов? Подтверждается ли гипотеза о «военном заговоре»? Каковы были подлинные масштабы репрессий? И главное – насколько велик ущерб, нанесенный ими боеспособности Красной Армии накануне войны?В данной книге есть ответы на все эти вопросы. Этот фундаментальный труд ввел в научный оборот огромный массив рассекреченных документов из военных и чекистских архивов и впервые дал всесторонний исчерпывающий анализ сталинской «чистки» РККА. Это – первая в мире энциклопедия, посвященная трагедии Красной Армии в 1937–1938 гг. Особой заслугой автора стала публикация «Мартиролога», содержащего сведения о более чем 2000 репрессированных командирах – от маршала до лейтенанта.

Олег Федотович Сувениров , Олег Ф. Сувениров

Документальная литература / Военная история / История / Прочая документальная литература / Образование и наука / Документальное
1917: русская голгофа. Агония империи и истоки революции
1917: русская голгофа. Агония империи и истоки революции

В представленной книге крушение Российской империи и ее последнего царя впервые показано не с точки зрения политиков, писателей, революционеров, дипломатов, генералов и других образованных людей, которых в стране было меньшинство, а через призму народного, обывательского восприятия. На основе многочисленных архивных документов, журналистских материалов, хроник судебных процессов, воспоминаний, писем, газетной хроники и других источников в работе приведен анализ революции как явления, выросшего из самого мировосприятия российского общества и выражавшего его истинные побудительные мотивы.Кроме того, авторы книги дают свой ответ на несколько важнейших вопросов. В частности, когда поезд российской истории перешел на революционные рельсы? Правда ли, что в период между войнами Россия богатела и процветала? Почему единение царя с народом в августе 1914 года так быстро сменилось лютой ненавистью народа к монархии? Какую роль в революции сыграла водка? Могла ли страна в 1917 году продолжать войну? Какова была истинная роль большевиков и почему к власти в итоге пришли не депутаты, фактически свергнувшие царя, не военные, не олигархи, а именно революционеры (что в действительности случается очень редко)? Существовала ли реальная альтернатива революции в сознании общества? И когда, собственно, в России началась Гражданская война?

Дмитрий Владимирович Зубов , Дмитрий Михайлович Дегтев , Дмитрий Михайлович Дёгтев

Документальная литература / История / Образование и наука