Proceedings 2002

Contents

ПРИНЦИП ОККАМА, ВОЗМОЖНЫЕ МИРЫ И МАШИННЫЙ ПЕРЕВОД

 

 

М. И. Воронцова

Московский Государственный Университет

marina_vor@rambler.ru

 

В. Б. Шexтман

ИППИ РАН

shehtman@mccme.ru

shehtman@netscape.net

 

 

Ключевые слова: машинный перевод, семантика, прагматика, возможные миры

 

В работе обсуждаются некоторые трудности, возникающие при работе с современными системами машинного перевода, и предлагается ряд способов устранения ошибок. В этой связи  принцип Оккама означает, что система должна выбирать подходящий тип перевода (пословный, “разговорник” и т.п.), необходимый уровень представления (синтаксический, семантический, прагматический и т.д.), а также “возможные миры” - области, в которых фиксируется значение многозначного слова.

 

 

Проблема машинного перевода - одна из центральных в области теоретической информатики и информационных технологий. На сегодняшний день здесь существует ряд глубоких теоретических разработок (как например, модель Смысл - Текст [1]) и ряд работающих компьютерных систем. Прогресс в этом направлении за последние 10-20 лет достаточно очевиден, однако мы еще очень далеки от удовлетворительного решения задачи. В настоящей работе обсуждаются некоторые трудности, возникающие при практическом использовании систем машинного перевода и намечаются возможные пути их преодоления.

  1. Очевидный недостаток современных систем машинного перевода (таких, как например, PROMT[1] или SYSTRAN[2]) - их неумение справляться с глубинным семантическим анализом, за исключением отдельных участков текста (фраз). Отсюда происходят многие нелепости, знакомые каждому, кто работал с этими системами.

Например, при переводе на английский язык  катание на коньках  может превратиться в riding small horses,  предложение

Пионеры катаются на карусели

может быть переведено как

Pioneers go for a drive on a roundabout

или как

Pioneers roll themselves on a roundabout

 а Matveevs short story  окажется переводом имени Новелла Матвеева.

Приведенные примеры показывают, что существующие системы особенно ненадежны при переводе на язык, незнакомый для пользователя. Ошибок можно избежать только с помощью экспертов, разбирающихся в предметной области и понимающих оба языка. Таким образом, выполненный автоматический перевод может  потребовать трудоемкой перепроверки, причем многие фрагменты придется фактически переводить заново. Отчасти сходная ситуация возникает, когда перевод русского специального текста (например, работы по математике) на иностранный язык выполняется профессиональным переводчиком, который специализируется на переводе Òв обратную сторонуÓ и совершенно незнаком с предметом  (соответствующие примеры имеются в [2]).

  1. Одним из основных принципов разумно организованной системы должен быть известный принцип “принцип бережливости” У.Оккама: не применять сильных средств, если можно обойтись малыми средствами. На практике это прежде всего означает, что системы машинного перевода должны различаться в зависимости от типа поставленной задачи. Можно выделить следующие три типа перевода.

¥ Если нужен пословный перевод, то достаточно проводить лишь поверхностный синтаксический анализ; потерянный смысл должен восстанавливаться пользователем.

¥ Напротив, перевод текстов только на уровне прагматики, используемый, например, в разговорниках, не интересуется синтаксисом и почти оставляет без внимания семантику.    

¥ Наконец, перевод, затрагивающий синтаксические и семантические уровни анализа текста, может нарушать корректность употребления, т.е. содержать ошибки на уровне прагматики.

Принцип экономии при переводе состоит в том, что перевод выполняется на поверхностном уровне, если нет необходимости проводить глубинный анализ. Это справедливо прежде всего для близко родственных языков, как отмечалось Ю.С.Мартемьяновым.

Хороший результат могут дать готовые шаблоны (штампы) и правильный выбор специальных терминов. Например, такая методика при переводе математических текстов с русского на английский рекомендуетя в [2]. Так, стандартный математический штамп  for any  there exists :

Любое полиномиальное уравнение имеет решение  >>

For any polynomial equation  there exists a solution.

Вероятно, подобный метод полезен при автоматическом переводе всякого специального текста. Заметим, что сходные принципы перевода используются и в разговорниках. Разумеется, при этом сохраняется риск ошибки ÒстиляÓ.

  1. Однако современным системам машинного перевода еще далеко до учета стилистических тонкостей.

Даже на поверхностном синтаксическом уровне наблюдаются ошибки в “опасных точках”, где два языка отличаются в выборе средств. Например, с точки зрения английского языка глаголы  ask и want одинаково употребляются в конструкциях

I wanted him to go away

и

I asked him to go away.

При переводе на русский - конструкции совершенно разные: в первом случае требуется глубинный анализ, чтобы получить перевод: Я хотел, чтобы он ушел. В втором же случае имеется очевидный поверхностный перевод:  Я просил его уйти. Однако система PROMT переводит  Я хотел, чтобы он ушел  как

I wanted that he has left,  но не делает ошибки при переводе I wanted him to go away на русский язык. Отметим, что в разработанной Н.Н. Леонтьевой системе AOT  переводы этих фраз в обоих направлениях  - правильные.

Правильный выбор уровня может решаться с помощью маркирования опасных точек.

  1. Другой распространненый тип ошибок при переводе - неправильный выбор словарного эквивалента. Общеизвестны трудности при переводе на иностранный язык с Òплохим словарем”, где предлагается несколько переводов данного слова, но непонятно, какой из них - верный в каждом конкретном случае.

Например, частая ошибка начинающих при переводе математических текстов - перевод в конструкциях типа

Напомним, что Х компактно слова напомним как  remind вместо recall .

Нужная информация о выборе эквивалента в словарях, как правило, отсутствует. Все известные нам системы машинного перевода делают эту ошибку.

Данная проблема может, на наш взгляд, решаться с помощью “настройки словаря” (в теминологии Н.Н. Леонтьевой) или выбора “возможного мира” (если использовать логическую терминологию).

Семантика возможных миров в лингвистических исследованиях обычно используется для объяснения поведения собственных имен или имен, зависящих от контекста. Хорошо известно, что собственные имена обладают ограниченной сферой действия и многозначностью. Даже имена, обладающие определенными дескрипциями (т.е. допускающими описание вида “такой x, что P(x)”, где P(x) – некоторый предикат, задающий одноэлементное множество), имеют однозначный денотат только при фиксации возможного мира.

Примеры на эту тему довольно многочисленны. Так, истинность предложения Президент много болеет  зависит от возможного мира, в который входит момент времени и конкретная страна. Имя Президент  в данном контексте является собственным и обозначает конкретное лицо, единственное в данном возможном мире. Так как денотат зависит от возможного мира, данное имя является нежестким (non-rigid) [3]. Однако в данном случае особенности семантики никак не отражаются ни на корректности фразы, ни на ее на переводе.

Другой случай Фашисты пили кефир в буфете. Эта фраза кажется не вполне корректной, поскольку здесь имеется стилистическая несогласованность. Она связана с конфликтом лексики двух возможных миров, где в одном - повседневность, в другом - экстремальная ситуация. В нашем предствалении эти миры разделены, так что имена, характерные для одного мира, не должны иметь денотата в другом мире[3].

Еще некоторые примеры приводились нами в [4].

Использование семантики возможных миров позволяет включить проблему правильного перевода в русло общей логической проблематики.

Отметим, что в рассмотренных выше случаях коммуникативные ошибки возможны лишь при понимании смысла предложений, а не при переводе их на другой язык.

Однако лексический конфликт может отразиться на переводе, если значение слова зависит от возможного мира не как собственное имя, а как профессиональный термин. Это приводит к омонимии, с которой система автоматического перевода должна научиться справляться. 

Например,   конек  имеет несколько значений в русском языке, и выбор одного из них должен определяться возможным миром (“областью описания”). В мире спорта конек  скорее переведется как skate. Особенно точно следует переводить специальные термины ( например, математический термин решетка должен преводиться как lattice  и никак иначе), а в профессиональном арго на конкретных соревнованиях  разминка  должен пониматься еще и как группа спортсменов, а не как  зарядка .

Сюда же примыкает проблема перевода фразеологизмов (шаблонов). Например, предложение Мы сняли дачу компьютер воспринимает “по-детски” буквально  и переводит как We have removed a summerresidence. Сигнал о выборе возможного мира здесь может даваться словом дача .

  1. Наконец, заметим, что в сложных случаях возможен уровень представления фразы, использующий лексемы одновременно из двух языков. Замены одних лексем на другие должны производиться с теми же предосторожностями, какие применяются при использовании собственных имен в модальных контекстах.

 

 

Литература

 

  1. Мельчук, И.А. Опыт теории лингвистических моделей “Смысл <=> Текст”. М., Наука, 1974.
  2. А.Б. Сосинский. Как написать математическую статью по-английски. М., 2000.
  3. M. Fitting, R. Mendelsohn. First-order modal logic. Synthese Library, v. 277. Kluwer, 1998.
  4. М.И. Воронцова, В.Б. êexтман. Имена и дескрипции. Диалог-2001, тезисы докладов.
  5. Н.Н.Леонтьева, З.М.Шаляпина. Современное состояние машинного перевода // Искусственный интеллект. Кн.1. Системы общения и экспертные системы. - М.,1990, с. 216-248.

 

 

Ockham’s principle, possible worlds, and automated translation

  1. Vorontsova, V. Shehtman

 

 

Keywords: automated transaltion, semantics, pragmatics, possible worlds

 

This talk discusses some difficulties arising in contemporary automated translation systems and some ways to avoid translation mistakes. In this context Ockham’s principle means that a system must choose an appropriate type of translation (word-by-word, phrase-book etc.), an appropriate level of representation (syntactic, semantical, pragmatical etc.), and specify “possible worlds” - the domains in which meanings of the words are fixed.

 

[1] http://www.translate.ru

[2] http://www.systransoft.com

[3] Впрочем, так было в 1993 г. (пример взят из книги В.Куцылло "Записки из Белого Дома"). Современные реалии - уже другие.