Читаем Эксперт № 16 (2014) полностью

Чтобы была понятна смелость замысла, необходимо объяснить его предысторию. С момента появления компьютеров человечество мечтало научить машины общаться с людьми и облегчить общение людей между собой, используя компьютерный перевод. Эти задачи представлялись взаимосвязанными, ведь казалось, что для перевода текста сперва нужно понять его смысл.

Лингвисты vs математики

Первую попытку сделали лингвисты, взявшись за создание модели языка. На возникшую в 1950–1960-х годах компьютерную лингвистику возлагались большие надежды. Казалось, достаточно чуть детальнее, чем в школьном учебнике, описать правила языка, перевести их на язык алгоритмов — и компьютер начнет понимать наши тексты. Но человеческий язык оказался невероятно сложен. То, что в речи нам кажется элементарным и само собой разумеющимся, при попытке формализовать и алгоритмизировать превращается в огромный свод правил и исключений, делающих задачу моделирования языка предельно сложной. Применение нескольких правил приводило к взаимоисключающим результатам.

figure class="banner-right"

figcaption class="cutline" Реклама /figcaption /figure

Кроме того, наш язык омонимичен и неоднозначен. Но и снятие омонимии не избавляет от многообразия оттенков значений, зависимости смысла от синтаксиса и контекста. Даже носители языка не всегда могут однозначно интерпретировать смысл речи. Например, трактовка фразы «мужу нельзя изменять» зависит от пола и гендерных стереотипов. Научить же компьютер выбирать из множества значений нужное оказалось невыполнимой задачей. В итоге лингвисты в рамках первой попытки отчасти справились с описанием морфологии и синтаксиса (на этом построены существующие сейчас системы проверки правописания в текстовых редакторах), но не смогли осилить семантику (понимание смысла) и тем более прагматику (понимание контекста употребления и картины мира автора текста). Поэтому вскоре энтузиазм по отношению к моделированию языка сошел на нет.

На смену лингвистам пришли математики с кардинально иной идеей: «Не нужно ничего понимать, достаточно быстро считать». Рост мощностей компьютеров и взрывное увеличение объема текстов в электронном виде позволили использовать статистические методы для перевода. Сопоставление одного и того же текста на нескольких языках дает возможность вычленять эквиваленты слов и на их основе формировать новые переводы. Казалось, растущие вычислительные мощности решат те задачи, которые не по силам лингвистам. Расхожей фразой стало высказывание, приписываемое руководителю одной из ИТ-компаний: «Каждый раз, когда я увольняю лингвиста, производительность системы возрастает».

Однако качество статистического перевода вполне соответствует его дешевизне. Оценить его можно на примере популярных систем «Яндекс. Перевод» и Google Translate, результаты работы которых хотя и помогают в целом уловить, о чем примерно идет речь, но весьма далеки от желаемого. Проблемы статистического подхода — все то же непонимание смысла текста, а также неумение полноценно анализировать морфологию и синтаксис.

Так, эллипсис — намеренный пропуск слов, несущественных для смысла, и замена существительных местоимениями — становится неразрешимой задачей для статистического перевода. Кроме того, неискоренимы статистические перекосы — например, Google переведет на русский текст о любом премьер-министре в мужском роде, какого бы пола ни была персона, потому что большинство премьер-министров мужчины, и следовательно, в текстах о них эта должность будет вести себя как существительное мужского рода. По этой же причине перевод женских романов может стать предметом нескончаемого веселья. Намного обиднее, когда происходят фактологические замены. Одной из самых известных хохм несколько лет назад стал перевод Google фразы «Путин едет на желтой “Калине”» как «Putin goes to a yellow Mazda». Если с подобными подменами будет переведено с незнакомого вам языка важное письмо, последствия могут оказаться совсем не смешными.

Будущее систем анализа текста в гибридных подходах: можно либо в статистические системы добавлять алгоритмы анализа морфологии и синтаксиса, либо усложнять и детализировать модель языка, в том числе методами статистического анализа.

В поисках смысла

Компания ABBYY началась в 1989 году с создания электронного словаря, следующей освоенной технологией стало распознавание — перевод печатного или рукописного текста в электронный. Напрашивался следующий шаг — создание системы машинного перевода.

Перейти на страницу:

Похожие книги

Абсолютное зло: поиски Сыновей Сэма
Абсолютное зло: поиски Сыновей Сэма

Кто приказывал Дэвиду Берковицу убивать? Черный лабрадор или кто-то другой? Он точно действовал один? Сын Сэма или Сыновья Сэма?..10 августа 1977 года полиция Нью-Йорка арестовала Дэвида Берковица – Убийцу с 44-м калибром, более известного как Сын Сэма. Берковиц признался, что стрелял в пятнадцать человек, убив при этом шестерых. На допросе он сделал шокирующее заявление – убивать ему приказывала собака-демон. Дело было официально закрыто.Журналист Мори Терри с подозрением отнесся к признанию Берковица. Вдохновленный противоречивыми показаниями свидетелей и уликами, упущенными из виду в ходе расследования, Терри был убежден, что Сын Сэма действовал не один. Тщательно собирая доказательства в течение десяти лет, он опубликовал свои выводы в первом издании «Абсолютного зла» в 1987 году. Терри предположил, что нападения Сына Сэма были организованы культом в Йонкерсе, который мог быть связан с Церковью Процесса Последнего суда и ответственен за другие ритуальные убийства по всей стране. С Церковью Процесса в свое время также связывали Чарльза Мэнсона и его секту «Семья».В формате PDF A4 сохранен издательский макет книги.

Мори Терри

Публицистика / Документальное
1917. Разгадка «русской» революции
1917. Разгадка «русской» революции

Гибель Российской империи в 1917 году не была случайностью, как не случайно рассыпался и Советский Союз. В обоих случаях мощная внешняя сила инициировала распад России, используя подлецов и дураков, которые за деньги или красивые обещания в итоге разрушили свою собственную страну.История этой величайшей катастрофы до сих пор во многом загадочна, и вопросов здесь куда больше, чем ответов. Германия, на которую до сих пор возлагают вину, была не более чем орудием, а потом точно так же стала жертвой уже своей революции. Февраль 1917-го — это начало русской катастрофы XX века, последствия которой были преодолены слишком дорогой ценой. Но когда мы забыли, как геополитические враги России разрушили нашу страну, — ситуация распада и хаоса повторилась вновь. И в том и в другом случае эта сила прикрывалась фальшивыми одеждами «союзничества» и «общечеловеческих ценностей». Вот и сегодня их «идейные» потомки, обильно финансируемые из-за рубежа, вновь готовы спровоцировать в России революцию.Из книги вы узнаете: почему Николай II и его брат так легко отреклись от трона? кто и как организовал проезд Ленина в «пломбированном» вагоне в Россию? зачем английский разведчик Освальд Рейнер сделал «контрольный выстрел» в лоб Григорию Распутину? почему германский Генштаб даже не подозревал, что у него есть шпион по фамилии Ульянов? зачем Временное правительство оплатило проезд на родину революционерам, которые ехали его свергать? почему Александр Керенский вместо борьбы с большевиками играл с ними в поддавки и старался передать власть Ленину?Керенский = Горбачев = Ельцин =.?.. Довольно!Никогда больше в России не должна случиться революция!

Николай Викторович Стариков

Публицистика
10 мифов о 1941 годе
10 мифов о 1941 годе

Трагедия 1941 года стала главным козырем «либеральных» ревизионистов, профессиональных обличителей и осквернителей советского прошлого, которые ради достижения своих целей не брезгуют ничем — ни подтасовками, ни передергиванием фактов, ни прямой ложью: в их «сенсационных» сочинениях события сознательно искажаются, потери завышаются многократно, слухи и сплетни выдаются за истину в последней инстанции, антисоветские мифы плодятся, как навозные мухи в выгребной яме…Эта книга — лучшее противоядие от «либеральной» лжи. Ведущий отечественный историк, автор бестселлеров «Берия — лучший менеджер XX века» и «Зачем убили Сталина?», не только опровергает самые злобные и бесстыжие антисоветские мифы, не только выводит на чистую воду кликуш и клеветников, но и предлагает собственную убедительную версию причин и обстоятельств трагедии 1941 года.

Сергей Кремлёв

Публицистика / История / Образование и наука
188 дней и ночей
188 дней и ночей

«188 дней и ночей» представляют для Вишневского, автора поразительных международных бестселлеров «Повторение судьбы» и «Одиночество в Сети», сборников «Любовница», «Мартина» и «Постель», очередной смелый эксперимент: книга написана в соавторстве, на два голоса. Он — популярный писатель, она — главный редактор женского журнала. Они пишут друг другу письма по электронной почте. Комментируя жизнь за окном, они обсуждают массу тем, она — как воинствующая феминистка, он — как мужчина, превозносящий женщин. Любовь, Бог, верность, старость, пластическая хирургия, гомосексуальность, виагра, порнография, литература, музыка — ничто не ускользает от их цепкого взгляда…

Малгожата Домагалик , Януш Вишневский , Януш Леон Вишневский

Публицистика / Семейные отношения, секс / Дом и досуг / Документальное / Образовательная литература