Сборник 2001

Наполнение базы данных лексических функций

 

В.И Антропова, И.А. Бегунов

Удмуртский Государственный университет

 

Введение

Одно из направлений создания компьютерных моделей естественного языка для систем машинного перевода, общения на естественном языке и других разработано российскими лингвистами И.А.Мельчуком и А.К.Жолковским [1] и получило название модели “Смысл-Текст”. В рамках этой модели развит аппарат лексических функций. Использование лексических функций в системах машинного перевода описано, например, в работе Л.Л.Цинмана, Л.Л.Иомдина [2]. Однако проблема заполнения базы данных значений лексических функций остается открытой.

Данная статья посвящена проблеме создания словаря лексических функций. Стоит задача создания методов обработки текстовой информации для извлечения значений лексических функций конкретных лексем. В качестве текстовой информации используются различные словари.

Лингвистический аспект задачи.

Лингвистический аспект задачи детально проработан И.А.Мельчуком, Ю.Д.Апресяном [3], [4], [5]. Чтобы ввести читателя в курс дела, ниже приведем краткое изложение основ используемого подхода.

Неотъемлемой частью модели “Смысл-Текст” является хранилище индивидуальных данных о конкретных лексемах – Толково-Комбинаторный Словарь (ТКС). Словарная статья ТКС должна в идеале содержать все словоизменительные, словообразовательные, синтаксические, семантические и стилистические характеристики заглавного (ключевого) слова C0; кроме того, для C0 необходимо указать все слова (словосочетания), определенным образом связанные с ним по смыслу:

1)      “парадигматические варианты” (“замены”) - средства, которые могут или должны заменять C0 в тех или иных контекстах и при тех или иных условиях;

2)      “синтагматические партнеры” (“параметры”) - средства, которыми идиоматично, несвободно, выражаются при данном слове некоторые смыслы.

Зависимость, определяющая для некоторого слова (словосочетания) X такое множество слов (словосочетаний) {Yi} = f(X), что для любых X1, X2 верно следующее: если f(X1) и f(X2) существуют, то между f(X1) и X1, с одной стороны, и между f(X2) и X2, с другой стороны, всегда имеет место одно и то же смысловое отношение, называется лексической функцией f(X).

Лексические функции (ЛФ) вводятся как средство скорее лексической сочетаемости, чем семантики. Но огрубляя суть дела, можно представлять ЛФ как весьма общий, не всегда достаточно точно определенный смысл – такой, что его нужное в данном речевом контексте выражение однозначно (с точностью до синонимии) выбирается по тому конкретному слову C0, при котором или для которого этот смысл выражается. Например, функция, отвечающая смыслу ‘очень’ – Magn (от magnus лат. - ‘большой’): Magn(брюнетка) = жгучая, Magn(знать) =назубок, как свои пять пальцев… и т.д.

В [3] приведен набор, содержащий базовые лексические функции. Из базовых ЛФ с помощью операции суперпозиции можно строить сложные ЛФ.

Значения одной лексической функции от разных аргументов могут полностью или частично совпадать: например, Oper1(помощь) = оказывать, Oper1(давление) = оказывать, и т.п.; могут совпадать и значения разных функций от одного аргумента: FinOper1(уважение) = терять [Я потерял к нему всякое уважение] и FinOper2(уважение) = терять [Я потерял его уважение].

В общем случае лексическая функция определяется не для всех слов и словосочетаний. Во-первых, некоторые функции определены лишь для той или иной части речи: так, Oper, Func и Labor мыслимы лишь для существительных, а Incep, Cont и Fin (вне сложных функций) – лишь для глаголов. Во-вторых, та или иная функция может определяться только для слов определенной семантики: Magn – для слов, смысл которых допускает градацию (“больше – меньше”), Cap и Equip – для слов, смысл которых предполагает наличие “начальника” и “персонала”, Conv – для слов, называющих отношения с двумя и более местами, Oper, Func и Labor определены только для названий ситуаций и т.д.

Авторы подхода сформулировали гипотезу о том, что выдвинутый набор ЛФ представляет собой лингвистическую универсалию – если не абсолютную, то статистически весьма распространенную.

 

Используемые словари.

В данной работе в качестве текстовой информации используются различные словари: синонимов [6], антонимов [7], эпитетов [8] и другие. Во внимание не берётся толкование слова и соответствующий иллюстративный материал (примеры, цитаты). Рассматривается та часть словарной статьи, откуда с помощью определённых схем можно извлечь значения ЛФ.

Приведем примеры используемых словарей.

Словарь “Лексическая основа русского языка”(синонимы).

Синонимы собраны в группы (ряды). Основой каждой такой группы является  понятие, имеющее для своего обозначения два или несколько различных слов, которые и образуют данную группу, например:

Друг, товарищ, приятель, дружок (разг).

В качестве синонимов рассматриваются слова одной и той же грамматической категории: существительные, глаголы, прилагательные и т.д.

Глагол даётся в том из своих видов, в котором наиболее отчётливо и ярко проявляется значение и в каком глагол имеет больше синонимов. Второй вид глагола (совершенный или несовершенный) приводится сразу же вслед за заглавным синонимическим рядом с абзаца, например:

Включать, вводить, вливать.                             

Сов.: включить, ввести, влить.

Влюбиться, увлечься, полюбить, втюриться (прост.)…

Несов.: влюбляться, увлекаться.                                  

Словарь антонимов русского языка.

В словаре реализована следующая структура:

а) имена существительные приводятся в именительном падеже единственного числа;

б) имена прилагательные даются в именительном падеже единственного числа мужского рода;

в) глаголы, как правило, приводятся в несовершенном виде в форме инфинитива. Глаголы совершенного вида, рассматриваемые как соотносимые с ними, приводятся в той же статье с пометойсов..

Примеры:

ДРУГ – ВРАГ…                                              

Дружба – вражда

дружественность – враждебность

дружеский – вражеский…

друг – недруг…

НАХОДИТЬ – ТЕРЯТЬ

сов. найти – потерять…

Ср. Приобретать – утрачивать.

Словарь эпитетов русского литературного языка.

Помимо собственно эпитетов в словаре представлены и наиболее употребительные определения бытового и терминологического характера (их нередко называют логическими определениями).

Примеры:

АВТОРИТЕТ. При положительной оценке. Безграничный, большой, важный (устар.), всемирный…

При отрицательной оценке. Грошовый (разг.)…

Синтаксис словарей.

Из словарей извлекаются значения соответствующих лексических функций, например, из словаря синонимов Syn, из словаря антонимов – Anti, и т.д.

Словарная статья каждого словаря имеет свой синтаксис. Для его описания были разработаны соответствующие грамматики в нормальной форме Бэкуса-Наура (БНФ). Ниже приведен пример одной из таких грамматик.

 

“Словарь эпитетов” (Горбачевич).

<словарь> :: = { <большая_буква> <Enter> { <словарная_статья> }* }*

<большая_буква> :: = А | … | Я

<словарная_статья> :: = <определяемое_слово>  {<метка1><Bon>|

<метка2><AntiBon>|<метка3><Magn>|<пропускаемый_текст>}+

<определяемое_слово> :: = <заглавное_слово>.

<заглавное_слово> :: = { <большая_буква> }+

<метка1> :: = При положительной оценке.

<метка2> :: = При отрицательной оценке.

<метка3>::=О хороше[м|й].

<Bon> :: = <ЛФ>

<AntiBon >:: = <ЛФ>

<Magn >:: = <ЛФ>

<ЛФ>::=<большая_буква>  { <маленькая_буква> }*[<помета> ]

{[,]<слово> [<помета> ]}*…

<помета> :: = разг. | устар. | простореч.

<слово> :: = [ <большая_буква> ] { <маленькая_буква> }*

<маленькая_буква> :: = а | … | я

<пропускаемый_текст> :: = { <любой_символ> }+ …

<любой_символ> :: = ; | : | ( | ) | , | <цифра> | <слово> | - 

 

Словарная статья выходного словаря имеет следующую формальную структуру:

<словарь_ЛФ> :: = { <большая_буква> <Enter> { <словарная_статья> <Enter> }+ }+

<большая_буква> :: = А | … | Я

<словарная_статья> :: = <определяемое_слово> <Enter> { <название_ЛФ> :

                                         <последовательность_значений_ЛФ> }+

<определяемое_слово> :: = <слово>

<название_ЛФ> :: = Syn | Anti | …                                 //перечисление простых ЛФ

<последовательность_значений_ЛФ> :: = { <значение_ЛФ> [;] }+

<значение_ЛФ> :: = <слово> [<определяемое_слово>] [<последовательность_помет>]

<слово> :: = { <маленькая_буква> }+

<последовательность_помет> :: = <помета> [ , <последовательность_помет>]

<помета> :: = ({<маленькая_буква> }+.)

<маленькая_буква> :: = а | … | я

 

В качестве иллюстрации приведем следующий пример:

А

абсолютный

Anti: относительный

аванс

Oper: выдавать аванс; давать аванс; получать аванс

V0: авансировать

авторитет

Oper: завоевывать авторитет; заслужить авторитет; иметь авторитет

Bon: безграничный; важный (устар.); высокий; громадный; заслуженный; исключительный; неограниченный; общепризнанный; прочный; солидный

AntiBon: грошовый (разг.); дешевый (разг.); липовый (простореч.); низкий; подорванный; сомнительный; шаткий

агитация

Oper: вести агитацию; проводить агитацию

V0: агитировать

Заключение.

На данный момент разработаны алгоритмы обработки девяти словарей, из них извлечено четырнадцать лексических функций. Выходной файл содержит на сегодняшний день около 1000 определяемых слов.

Литература.

  1. Мельчук И.А. Опыт теории лингвистических моделей “Смысл<=>Текст”. – М.: Наука, 1974, 314 с.
  2. Цинман Л.Л., Иомдин Л.Л. Лексические функции и машинный перевод. //Труды международного семинара Диалог’97. Москва, 1997 с.292-297.
  3. Мельчук И.А. Русский язык в модели “Смысл<=>Текст”. Москва-Вена, 1995, 683с.
  4. Апресян Ю.Д. Избранные труды: В 2 т. – М.: Школа “Языки русской культуры”, 1995, 767с.
  5. Апресян Ю.Д. Лексическая семантика. – М.: “Наука”, 1974, 368с.
  6. Лексическая основа русского языка: Комплексный учебный словарь. /В.В. Морковкин и др. – М.: “Русский язык”, 1984.
  7. Введенская Л.А. Словарь антонимов русского языка. Ростов-на-Дону, “Феникс”, 1995, 544с.
  8. Горбачевич К.С., Хабло Е.П. Словарь эпитетов русского литературного языка. – Л.: “Наука”, 1979.