Proceedings 2000

Contents

Модуль универсального сетевого языка (UNL)

в составе системы ЭТАП-3[1]

 

 

 

И.М. Богуславский, Л.Л. Иомдин, Л.Г. Крейдлин, Н.Е. Фрид,

И.Л. Сагалова, В.Г. Сизов

Институт проблем передачи информации РАН

bogus@.iitp.ru, iomdin@.iitp.ru, lenya@.iitp.ru, nadya@.iitp.ru,

sagalova@.iitp.ru,  sizov@.iitp.ru

 

 

 

1. Введение

 

ЭТАП-3 – это полифункциональная система обработки текста на естественном языке, которая разрабатывается с 1980-х гг. группой российских лингвистов, математиков и программистов в Институте проблем передачи информации РАН. В основу системы ЭТАП-3 положена теория «Смысл Û Текст», разработанная И.А. Мельчуком, и интегральная теория языка, разработанная Ю.Д. Апресяном.

ЭТАП-3 не является коммерческой разработкой, нацеленной на достижение конкретной прикладной цели. Наша основная задача – лингвистическое моделирование естественного языка и компьютерная реализация таких моделей. Этим объясняется наше стремление строить модели, как можно более адекватные с лингвистической точки зрения. Нередко в систему вводится обширная лингвистическая информация независимо от того, необходима она для повышения эффективности компьютерной обработки текста или нет. В частности, мы стремимся получать лингвистически корректные синтаксические структуры для каждого предложения не потому, что иначе предложение нельзя будет, например, правильно перевести на другой язык, а просто потому, что этого требует задача моделирования синтаксиса естественного языка. Впрочем, мы убеждены в том, что в конечном счете теоретическая адекватность и полнота лингвистической информации окупаются и с чисто практической точки зрения.

Во всех приложениях ЭТАПА-3 используются оригинальная система трехзначной логики и детально разработанный формальный язык лингвистического описания FORET (см. Апресян и др. 1992а, Apresjan et al. 1992b).

 

2. Этап-3: модули, свойства, архитектура, реализация

2.1.  Модули

Система ЭТАП-3 содержит следующие основные модули:

  • Система высококачественного машинного перевода
  • Модуль порождения русских текстов на основе Универсального сетевого языка (UNL)
  • Естественно-языковой интерфейс для баз данных
  • Система синонимического перифразирования предложений
  • Корректор синтаксических ошибок
  • Система обучения языку с помощью компьютера
  • Рабочее место для синтаксической разметки корпуса текстов.

 

Ниже мы кратко охарактеризуем все эти модули, а на одном из них – модуле UNL – остановимся более подробно.

2.1.1. Система машинного перевода ЭТАП-3

Основной модуль ЭТАПа-3 – это система машинного перевода (МП), обслуживающая пять пар языков. Имеются системы для перевода: (1) с английского языка на русский, (2) с русского на английский, (3) с русского на корейский, (4) с русского на французский и (5) с русского на немецкий.

К настоящему моменту наиболее детально разработаны первые две системы. Система  перевода с английского языка на русский и с русского на английский, которую можно рассматривать как единый двунаправленный модуль, предназначена для перевода реальных текстов, преимущественно научно-технической тематики. Наилучшие результаты получены для текстов по вычислительной технике, электротехнике, экономике и политике, поскольку комбинаторные словари рабочих языков системы (каждый содержит около 50 000 словарных статей) преимущественно ориентированы на лексику этих предметных областей. Однако ЭТАП-3 справляется и с текстами на бытовые темы, так как в последнее время словари были существенно пополнены бытовой лексикой. Для каждой лексемы в комбинаторном словаре приводятся ее синтаксические, словообразовательные, семантические и словообразовательные признаки, ее модель управления, а также сведения об устойчивых словосочетаниях с данной лексемой.

Кроме того, имеется русский морфологический словарь (100 000 словарных статей), который помимо сугубо морфологической информации содержит базовые синтаксические сведения о лексеме и ее приблизительный переводной эквивалент. Такую же структуру имеет и английский морфологический словарь (60 000 словарных статей). В основу системы положены исчерпывающие грамматические описания  английского и русского языков, составленные разработчиками ЭТАПА-3.

Для остальных пар языков системы перевода существуют на уровне прототипов.

Если на вход ЭТАПа-3 поступает омонимичное предложение и система не может разрешить эту омонимию, то на выходе предлагаются несколько вариантов перевода. Во всех прочих случаях система выдает одну, наиболее правдоподобную, синтаксическую структуру и один, наиболее вероятный, перевод. Если же пользователь системы хочет получить все возможные переводы, он может выбрать соответствующую опцию, и система «вспомнит» все случаи неразрешенной омонимии и выдаст все возможные синтаксические структуры предложения с допустимыми для них лексическими наполнениями. Рассмотрим один реальный пример. Предложение They made a general remark that... при выбранной опции «все варианты перевода» было переведено на русский язык двумя способами, которые различаются как синтаксическими структурами, так и выбором лексики: (а) Они сделали общее замечание, что… и (б) Они вынудили генерала отметить, что

2.1.2. Естественно-языковой интерфейс для баз данных

Данный модуль системы ЭТАП-3 переводит запросы, заданные в свободной форме на естественном языке (английском или русском), в выражения языка запросов SQL. Модуль также осуществляет перевод с SQL на естественный язык. В основу модуля положен разработанный специально для этой цели семантический компонент, который переводит глубинно-синтаксическую структуру в формально-семантическое представление, от которого можно легко перейти к представлению на языке SQL.

2.1.3. Система синонимического перифразирования

Этот модуль предназначен для проведения лингвистических экспериментов по получению разнообразных синонимических и квазисинонимических перифраз русских и английских предложений. В основу системы положен аппарат лексических функций, одно из важнейших нововведений теории «Смысл Û Текст». Результат работы модуля синонимического перифразирования можно проиллюстрировать на следующем примере:

(1)    The director ordered John to write a report – The director gave John an order to write a report – John was ordered by the director to write a report – John received an order from the director to write a report.

 

Данное направление лингвистических исследований представляется весьма перспективным, так как может иметь самое разнообразное применение, например, в обучении родному и иностранному языку, в авторских системах и системах планирования текста.

2.1.4. Корректор синтаксических ошибок

Этот модуль предназначен для обработки текстов на русском языке. Его цель - поиск и исправление разного рода ошибок в грамматическом согласовании, а также в падежном управлении.

2.1.5.Система обучения языку с помощью компьютера

Этот модуль представляет собой автономное программное приложение, а именно, компьютерную игру в виде диалога. Эту программу можно использовать при обучении русскому, английскому и немецкому языку как иностранному. Игра предназначена для тех, кто уже хорошо овладел языком, но хотел бы расширить свой словарный запас, прежде всего, за счет устойчивых словосочетаний и средств перифразирования. В основу системы положен аппарат лексических функций. Программу также могут с успехом использовать и носители вышеперечисленных языков, желающие обогатить свой словарный запас (например, журналисты, учителя и даже политики).

2.1.6. Рабочее место для синтаксической разметки корпуса текстов.

Этот недавно разработанный модуль использует словари ЭТАПа-3, а также морфологический и синтаксический анализаторы системы для построения первого синтаксически размеченного корпуса русских текстов. Это приложение смешанного типа: древесная структура, полученная в результате автоматического анализа, редактируется затем человеком с помощью удобных графических средств.

2.2. Основные свойства системы

Среди основных черт системы ЭТАП-3 в целом и отдельных ее модулей можно отметить следующие:

  • Использование правил в качестве основной единицы алгоритма
  • Уровневый подход
  • Перевод через этап трансфера
  • Использование синтаксических деревьев зависимости
  • Лексикалистский подход
  • Возможность получения вариантов перевода
  • Возможность разнообразного использования лингвистических ресурсов

 

В настоящей версии ЭТАПа-3 все модули используют только алгоритмы, основанные на правилах. Однако в ряде недавно проведенных экспериментов модуль МП был дополнен компонентом, основанным на обращении к архиву переводов (translation memory), а также статистическим компонентом, который полуавтоматически извлекает переводные эквиваленты из двуязычных корпусов текстов (см. Iomdin & Streiter 1999).

Как и многие другие системы обработки текста на естественном языке, ЭТАП-3 характеризуется уровневым подходом. В ходе обработки каждое предложение проходит несколько стадий и на каждой стадии представляется в виде некоторой структуры: 1) морфологической, 2) синтаксической и 3) нормализованной (или глубинно-синтаксической). Собственно перевод (трансфер) осуществляется на уровне нормализованной синтаксической структуры, т.е. английские нормализованные структуры преобразуются в соответствующие русские нормализованные структуры и наоборот.

Что отличает ЭТАП-3 от большинства аналогичных систем, - это использование синтаксических деревьев зависимостей для представления структуры предложения (во всем мире в большинстве систем обработки текста на естественном языке применяются структуры непосредственно составляющих).

ЭТАП-3 характеризуется лексикалистским подходом в том отношении, что информация, записываемая в словаре, признается такой же важной, как и информация, фиксируемая в грамматике. Соответственно, словари ЭТАПа-3 содержат существенно больше информации, чем словари, используемые  в других аналогичных системах. Словарная статья ЭТАПа-3 содержит, помимо имени лексемы, сведения о синтаксических и семантических признаках лексемы, ее модель управления, переводной эквивалент, разнообразные правила, а также значения лексических функций, ключевым словом которых является данная лексема. Синтаксические признаки слова характеризуют его способность или неспособность выступать в тех или иных синтаксических конструкциях. Слову может приписываться несколько синтаксических признаков из общего списка, содержащего более 200 признаков. Семантические признаки необходимы для проверки семантического согласования между словами в предложении. Модель управления слова содержит информацию о поверхностном выражении актантов данного слова (например, слово может управлять тем или иным предлогом или союзом или той или иной падежной формой имени). Важнейшей составляющей словарной статьи являются правила. Все правила в ЭТАПе-3 распределяются между грамматикой и словарем. Грамматические правила более общие и применяются к широким классам слов, в то время как правила, упоминаемые в словарных статьях (непосредственно или с помощью отсылки) применяются к небольшим группам слов или даже к отдельным словам. Подобная организация правил обеспечивает автоматическую настройку системы на обработку каждого отдельного предложения. В процессе перевода активируются только те правила, отсылка к которым в явном виде содержится в словарных статьях слов, содержащихся в предложении.

Приведем в качестве иллюстрации фрагмент словарной статьи английского слова chance:

 

CHANCE1

POR:S

SYNT:COUNT,PREDTO,PREDTHAT

DES:'FACT','ABSTRACT'

D1.1:OF,'PERSON'

D2.1:OF,'FACT'

D2.2:TO2

D2.3:THAT1

_SYN1:OPPORTUNITY

_MAGN:GOOD1/FAIR1/EXCELLENT

_ANTIMAGN:SLIGHT/SLIM/POOR/LITTLE1/SMALL

_OPER1:HAVE/STAND1

_REAL1-M:TAKE

_ANTIREAL1-M:MISS1

_INCEPOPER1:GET

_FINOPER1:LOSE

_CAUSFUNC1:GIVE<TO1>/GIVE

ZONE:R

           TRANS:ШАНС/СЛУЧАЙ

REG:TRADUCT2.00

TAKE:X

LOC:R

R:COMPOS/MODIF/POSSES

CHECK

1.1 DEP-LEXA(X,Z,PREPOS,BY1)

N:01

CHECK

1.1 DOM(X,*,R)

DO

1 ZAMRUZ:Z(ПО1)

2 ZAMRUZ:X(СЛУЧАЙНОСТЬ)

N:02

CHECK

2.1 DOM(X,*,*)

DO

1 ZAMRUZ:Z(СЛУЧАЙНО)

2 STERUZ:X

TRAF:RA-EXPANS.16

LA:THAT1

TRAF:RA-EXPANS.22

 

Разрабатывая систему ЭТАП-3, мы стремились построить ее компоненты таким образом, чтобы их можно было использовать в самых разных целях. В частности, основные грамматические и словарные ресурсы системы используются во всех ее модулях. Так, например, русские словари используются на этапе анализа при переводе с русского языка на английский и на этапе синтеза при переводе с английского языка на русский; одни и те же словари используются в модуле МП, в системе перифразирования, в синтаксически размеченном корпусе и др. Более того, некоторые из ресурсов системы могут "отчуждаться" от нее и, пройдя доработку в зависимости от требований заказчика, использоваться в различных системах обработки естественно-языковых текстов.

2.3.Общая архитектура системы ЭТАП-3

Чтобы дать общее представление о функционировании системы ЭТАП-3, мы приводим общий алгоритм модуля МП (Схема 1). Все остальные модули можно, с известной оговоркой, рассматривать как производные от данного.

 

МОДУЛЬ МАШИННОГО ПЕРЕВОДА СИСТЕМЫ ЭТАП-3

(АРХИТЕКТУРА)

 

Морфологическая структура (выходная)

 

Синтаксическая структура (выходная)

 

Комбинаторный словарь (выходной)

 

 

 

Комбинаторный словарь (входной)

 

Морфологический словарь (выходной)

 

Морфологический синтез

 

Синтаксический синтез

 

Развертывание структуры

 

Собственно перевод

 

Нормализация

 

Синтаксический анализ

 

Морфологический словарь (входной)

 

Морфологический анализ

 

СТАДИИ

 

 

OBJECTS

 

ОБЪЕКТЫ

             
 

                  Входное предложение

 
   

СЛОВАРИ

 

 
 
 
 

Морфологическая структура (входная)

 
 
 

Синтаксическая структура (входная)

 
 
 

Нормализованная структура (входная)

 

 
 
 

Нормализованная структура (выходная)

 

 
 
     
 
   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.4. Реализация

Система ЭТАП-3 была реализована на вычислительной машине MicroVax (операционная система VMS). Недавно было создано новое программное обеспечение для работы с ЭТАПом-3 на персональных компьютерах под Windows NT 4.0, что позволяет лексикографу использовать целый ряд дополнительных инструментов и более эффективно поддерживать и редактировать словари.

 

3. Интерфейс для языка UNL

3.1 Предпосылки и цели

Модуль UNL разрабатывается в рамках обширного международного проекта, ставящего перед собой весьма амбициозную цель: преодолеть, по крайней мере, частично, языковой барьер, разделяющий пользователей Интернета. Несмотря на то, что с возникновением Интернета временные и пространственные барьеры между людьми практически исчезли, пользователи Интернета продолжают быть разделенными языковым барьером. Это, по-видимому, является главной помехой на пути к успешной международной и межличностной коммуникации в информационном обществе. Разнообразие языков, на которых говорят пользователи Интернета, было осознано как одна из насущных проблем человечества. Во всяком случае, об этом свидетельствует тот факт, что проект, ставящий целью эту проблему разрешить, проводится под эгидой ООН и координируется Институтом перспективных исследований при Университете ООН.

Проект был основан в 1996 г. В настоящее время в проекте участвуют 15 университетов и научно-исследовательских институтов из Бразилии, Германии, Индии, Индонезии, Иордании, Испании, Италии, Китая, Латвии, Монголии, России, Таиланда, Франции и Японии.

Ожидается, что в ближайшие годы к проекту присоединятся коллективы и из других стран, так что в конечном счете планируется охватить государственные языки всех стран-членов ООН

Идея проекта заключается в следующем. Предлагается универсальный язык-посредник, достаточно мощный для того, чтобы на нем можно было выразить всю важнейшую информацию, которую передают тексты на естественных языках. Этот язык  - Универсальный Сетевой Язык (Universal Networking Language, или UNL) предложил Х. Учида (Университет ООН). Для каждого естественного языка предлагается разработать две системы:  «деконвертор», который переводил бы тексты с языка UNL на данный язык, и «энконвертор», который преобразовывал бы тексты на данном языке в выражения языка UNL. Следует подчеркнуть, что порождение текста на языке UNL не будет полностью автоматическим. Эта процедура планируется как диалог между компьютером и  человеком (редактором).

Таким образом, данный проект принципиально отличается от традиционного машинного перевода. Прежде всего, входом для порождения текстов на разных естественных языках, служит структура UNL, качество которой не зависит от несовершенства процедур анализа текстов. В процессе интерактивного построения UNLструктуры редактор будет просматривать результаты работы автоматического энконвертора, исправлять ошибки и разрешать оставшуюся многозначность. Затем редактор может запустить деконвертор и перевести отредактированное им UNL выражение на свой родной язык, чтобы проверить результаты своей работы и при необходимости внести в это выражение дополнительные изменения.

Другое важное отличие системы UNL от машинного перевода заключается в том, что выражения на языке UNL можно порождать и хранить вне всякой зависимости от тех естественных языков, на которые эти тексты будут переводиться. UNL можно рассматривать как универсальный способ представления значения. Чтобы обработать текст на UNL автоматически – например, проиндексировать его, провести по нему поиск или извлечь из него информацию, необязательно переводить этот текст на естественный язык. Последнее необходимо только в том случае, если с текстом будет работать человек.

Энконвертор и деконвентор для каждого естественного языка образуют языковой сервер, который планируется разместить в Интернете. Все языковые серверы будут связаны в единую сеть UNL, что позволит пользователю Интернета  переводить любой документ с UNL на свой собственный язык, а также переводить на UNL те тексты, которые он хочет сделать  общедоступными.

3.2 Язык UNL

В настоящей статье мы не сможем описать язык UNL в деталях, поскольку эта тема заслуживает отдельной статьи, которая вероятно будет написана создателем языка - д-ром Хироши Учидой. Мы только остановимся только на тех особенностях языка UNL, которые будут важны для дальнейшего изложения. Полная спецификация языка UNL находится по адресу http://www.unl.ias.unu.edu/.

UNL - это компьютерный язык, разработанный для представления информации в таком виде, который позволял бы порождать тексты, содержащие эту информацию, на самых разнообразных языках. Выражение языка UNL представляет собой ориентированный гиперграф, соответствующий предложению на естественном языке. Дуги графа обозначают семантические отношения, например, agent (деятель), object (объект), time (время), place (место), instrument (инструмент), mode (образ действия) и др. В узлах графа расположены так называемые Универсальные Слова (УС) обозначающие концепты, или группы УС. Узлы могут быть снабжены атрибутами. Атрибуты содержат дополнительную информацию об использовании узла в данном предложении, например, @imperative, @generic, @future, @obligation.

Каждое  УС соответствует некоторому английскому слову. Некоторые слова имеют семантические ограничители, которые уточняют значения этих слов. В большинстве случаев ограничители указывают место концепта в базе знаний. Это делается следующим образом. Универсальное Слово вида A (icl>B) интерпретируется как ‘A относится к категории B’. Например, УС coach без каких-либо ограничителей имеет те же значения, что и английское слово coach в целом. Чтобы уточнить значение слова, используются ограничители. Так, выражение coach (icl>transport) следует понимать как ‘coach как транспортное средство’, то есть, автобус; выражение coach (icl>human)имеет интерпретацию ‘coach как человек’, то есть, тренер, а выражение coach (icl>do) – интерпретацию ‘coach как разновидность действия’, то есть глагол тренировать. Иными словами, аппарат ограничителей позволяет представить УС как английской слово, взятое ровно в одном значении. Кроме того, ограничители позволяют ввести концепты, для которых в английском языке отсутствуют однословные обозначения. Например, в русском языке имеется обширная группа глаголов движения, в значение которых входит указание на способ или средство перемещения: прилететь, приплыть, приползти, прибежать и др. Для глаголов этой группы отсутствуют однословные английские соответствия. Однако на основе английских слов можно построить УС, близкие им по смыслу, например, come (met>ship) означает ‘прибыть, причем средством передвижения является корабль’.

Приведем пример выражения на языке UNL, соответствующего английскому предложению

 

(2)    However, language differences are a barrier to the smooth flow of information in our society.

 

Каждая строка UNL структуры представляет собой выражение вида отношение (УС1, УС2). Для простоты семантические ограничители при универсальных словах опущены.

 

aoj(barrier.@entry.@present.@indef.@however, difference.@pl)

mod(barrier.@entry.@present.@indef.@however, flow.@def)

mod(difference.@pl, language)

aoj(smooth, flow.@def)

mod(flow.@def, information)

scn(flow.@def, society)

pos(society, we)

3.3. Перевод с UNL на русский язык в системе ЭТАП-3

Как уже отмечалось в разделе 1, ЭТАП-3 - это трансферная система, и собственно перевод осуществляется на стадии нормализованной синтаксической структуры (НормСС). На этом уровне удобнее всего установить и соответствие между русским языком и UNL, поскольку выражения языка UNL и нормализованные синтаксические структуры обнаруживают немало общих черт. Вот наиболее существенные из них:

 

  1. Как выражения языка UNL, так и НормСС занимают промежуточное положение между поверхностным и семантическим представлениями предложения и приблизительно соответствуют так называемому глубинно-синтаксическому уровню. На этом уровне значение лексических единиц не раскладывается на примитивы, а отношения между лексическими единицами едины для всех языков;
  2. Как в выражениях языка UNL, так и в НормСС узлы представляют собой терминальные элементы (лексические единицы), а не синтаксические категории;
  3. Узлы содержат дополнительные характеристики (атрибуты);
  4. Как в выражениях языка UNL, так и в НормСС дуги представляют собой направленные зависимости.

В то же время имеются и существенные различия между выражениями языка UNL и НормСС:

 

  1. В НормСС все узлы представляют собой лексические единицы, а в языке UNL узел может представлять собой подграф.
  2. В НормСС узел всегда соответствует одному значению слова, а значение УС может быть шире или уже, чем значение соответствующего английского слова:

2.1. Значение УС может соответствовать сразу нескольким значениям одного слова (см. выше).

2.2. Они могут соответствовать свободному словосочетанию (например, computer-based или high-quality).

2.3. Они могут соответствовать некоторой форме слова (например, слово  best является формой слова good или  well).

2.4. Они могут обозначать концепт, для которого нет прямого соответствия в английском языке.

  1. НормСС - это самый простой из всех связных графов, а именно, дерево, в то время как выражение языка UNL представляет собой гиперграф.
  2. В языке UNL дуги могут образовывать петли и связывать отдельные подграфы.
  3. Узлы в НормСС связаны чисто синтаксическими отношениями, не несущими никакого смысла, а отношения в языке UNL обозначают семантические роли.
  4. Атрибуты в НормСС соответствуют грамматическим характеристикам, в то время как значение многие атрибутов UNL передается лексическими средствами, как в английском языке, так и в русском (например, модальными глаголами).
  5. НормСС содержит сведения о порядке слов в предложении, а в выражении языка UNL подобная информация отсутствует.

НормСС предложения (2) выглядит следующим образом:

 
   


Поскольку УС языка UNL обозначаются английскими лексемами, представляется

целесообразным осуществить переход от представления на языке UNL к русскому предложению через посредство английской НормСС, которая будет служить промежуточным представлением (ПП). Это обеспечит наиболее простой переход от выражения на языке UNL к русскому предложению.

Таким образом, весь процесс перехода от выражения на языке UNL к русскому предложению осуществляется в три шага.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Схема 3

 
   

  1. Переход от выражения на языке UNL к промежуточному представлению (ПП)
  2. Переход от ПП к русской НормСС (НормССР).
  3. Синтез русского предложения по НормССР.

Первый из этих шагов представляет собой интерфейс между языком UNL и системой ЭТАП-3, а остальные осуществляются стандартными средствами англо-русского модуля системы ЭТАП-3.

Алгоритм перевода с UNL на русский язык показан на схеме 3.

Как следует из вышесказанного, переход от выражения на языке UNL к НормСС должен решать следующие пять задач:

  1. Заменить все УС английскими словами везде, где это возможно. Русские лексемы появятся на этапе англо-русского перевода при обращении к английскому словарю. Если для УС не нашлось английского эквивалента, следует выразить значение этого УС другими средствами.
  2. Перевести синтаксические отношения языка UNL в синтаксические отношения ЭТАПа-3, либо непосредственно, либо с помощью лексических средств.
  3. Перевести атрибуты языка UNL в грамматические характеристики ЭТАПа-3, либо непосредственно, либо с помощью лексических средств.
  4. Преобразовать граф UNL в дерево зависимостей.
  5. Определить порядок слов в предложении.

 

Первая и (отчасти) вторая задача решаются при помощи словарей UNL - английского и английского комбинаторного. За все остальные задачи отвечают правила, написанные на формально-логическом языке FORET.

Таким образом, все эти задачи решаются либо при помощи словарей, либо при помощи правил. Правила подразделяются на три класса в зависимости от степени универсальности: различаются ОБЩИЕ, ТРАФАРЕТНЫЕ и СЛОВАРНЫЕ правила. Общие правила могут активироваться при обработке любого предложения. Два других типа правил применяются только в том случае, если в обрабатываемом предложении имеется слово, которое содержит отсылку к некоторому правилу (в случае трафаретного правила) или само правило (в случае словарного правила). Подобная организация правил обеспечивает автоматическую настройку системы: активируются только те правила, которые требуются для обработки того или иного предложения.

3.4. Настоящее положение дел и планы на будущее

Экспериментальная версия модуля перевода с UNL на русский доступна по адресу http://proling.iitp.ru/Deco. К лету 2000 г. мы планируем сделать модуль пригодным для общего пользования. Следующей нашей задачей будет создание интерактивного  энконвертора.

Как явствует из схемы 3, интерфейс между UNL и структурами, с которыми работает модуль машинного перевода ЭТАП-3 осуществляется на уровне английской НормСС. Из этой же схемы видно, что английский перевод исходного UNL выражения является естественным побочным продуктом такой архитектуры. Для этого достаточно направить английскую НормСС на синтез. Уже проведен ряд успешных экспериментов в этом направлении.

 

Литература

 

Ю.Д. Апресян, И.М.Богуславский, Л.Л.Иомдин и др. (1992a). Лингвистический процессор для сложных информационных систем. Наука, 256 с. M.

Ju.D.Apresjan, I.M.Boguslavsky, L.L.Iomdin et al. (1992b).ETAP-2: The Linguistics of a Machine Translation System. // META, Vol. 37, No 1, pp. 97-112.

Igor Boguslavsky (1995). A bi-directional Russian-to-English machine translation system (ETAP-3). // Proceedings of the Machine Translation Summit V. Luxembourg.

Leonid Iomdin & Oliver Streiter. (1999). Learning from Parallel Corpora: Experiments in Machine Translation. // Dialogue'99: Computational Linguistics and its Applications International Workshop. Tarusa, Russia, June 1999. Vol.2, pp. 79-88.

 

 

 

 

[1] Исследование, которому посвящена данная статья, проводилось при частичной финансовой поддержке Российского Фонда Фундаментальных Исследований  (грант № 99-06-80277).