Proceedings 2002

Contents

РЕКОНСТРУКЦИЯ ФОРМАЛЬНОГО КОНТЕКСТА СИНТАКСЕМЫ ПО СИНТАКСИЧЕСКОМУ СЛОВАРЮ Г.А. ЗОЛОТОВОЙ

 

 

О. А. Невзорова

Казанский государственный педагогический университет

Olga.Nevzorova@ksu.ru

 

 

Ключевые слова: словари, разрешение неоднозначности, автоматическая обработка текста

 

В статье рассматривается разработка Словаря контекстов синтаксем на основе Синтаксического словаря Г.А. Золотовой. Вводится понятие формального контекста синтаксемы и дается его параметрическое описание, которое является моделью статьи Словаря контекстов синтаксем. Заполнение статьи осуществляется на основе неструктурированного описания соответствующей статьи  Синтаксического  словаря.  В целом, формат статьи нового словаря представляет собой обобщенный структурированный набор параметров описания, выделенный из текстовых описаний статей Синтаксического словаря.

 

 

  1. Введение

 

В последние годы активно развивается область исследований  по автоматической  обработке текстов. Основной задачей систем анализа текстов является интерпретация текста, т.е. построение отображения компонент текста в некоторые формальные структуры, показывающие характер отношений между компонентами текста.  В дальнейшем наше исследование будет касаться анализа (интерпретации) отдельного предложения текста.

Можно выделить основные этапы интерпретации предложения:

-   выделение компонент предложения;

-   распознавание семантических ролей компонент для установления характера связей между компонентами. В общем случае,  данная задача решается  неоднозначно.

Методы разрешения многозначности слов используют либо внешние знания, так называемые knowledge-driven methods, либо информацию, извлеченную из корпуса текстов, так называемые data-drivenmethods. Предлагаемый подход относится к группе data-driven методов. Приписывание семантического значения сегменту осуществляется на основе его семантико-синтаксических характеристик, характеристик предложения и текста в целом.

 

 

2. Синтаксема и ее характеристики

 

Результаты, изложенные в настоящей статье, получены при разработке системы анализа русских технических текстов.  В основе модели анализа лежат формальные результаты коммуникативной грамматики русского языка [2]. Кратко опишем основные лингвистические результаты, необходимые для понимания настоящей работы.

На современном этапе развития лингвистики крайне актуальной является задача выделения  и классификации элементарных синтаксических единиц, из которых конструируются все другие, более сложные конструкции. Системное решение этой задачи для русского синтаксиса было предложено в работах [1, 2]. Ключевым понятием синтаксиса, по мнению Г.А. Золотовой  является понятие синтаксемы. Синтаксемой названа минимальная семантико-синтаксическая единица русского языка, выступающая одновременно как носитель элементарного смысла и как конструктивный компонент более сложных синтаксических построений, характеризуемый определенным набором синтаксических функций.

Язык осуществляет возможность выразить содержание мысли средствами синтаксиса путем предикативного сопряжения синтаксем. Предложения любого состава с точки зрения его организации и с точки зрения его членения может рассматриваться как одна из исчисляемых комбинаций синтаксем.

Идея компонентного анализа предложения сама по себе, разумеется, не  нова, однако она впервые последовательно реализована для модели русского синтаксиса. Другая ключевая идея состоит в развитии концепции падежной грамматики в направлении исследования  собственно синтаксических, конструктивных свойств падежных форм. В силу богатства и разнообразия падежных и предложно-падежных форм при разнородности их функций функционально-синтаксический аспект проблемы для русской грамматики приобретает особую актуальность.

Итак, каждая синтаксема характеризуется тремя признаками – формой, значением и функцией. Значением синтаксемы является ее падежная роль в смысле Д. Филлмора. Существенной характеристикой синтаксемы является  синтаксическая функция, определяющая способность синтаксемы синтаксически реализоваться в определенных позициях предложения.

Одним из важных результатов рассматриваемой теории является последовательное описание моделей русского предложения как результата реализации потенциальных  комбинационных возможностей синтаксем. Построенное исчисление моделей подтверждает тезис о принципиальной двусоставности русского предложения, т.е. предикативный минимум русского предложения содержит две главные компоненты, содержательно выражающих идею соотнесенности предикативного (в плане модальности, времени и лица) признака к предмету, его носителю. При этом грамматические способы выражения предикативного признака и предмета могут быть различными в различных моделях предложений. Так, можно выделить некоторые регулярные способы выражения грамматического субъекта русских предложений разных типов: обусловленные синтаксемы со значением личного субъекта предикативного признака (Он в тревоге; У него жар; Ему весело),  свободные синтаксемы с локативным значением, некоторые темпоративные в предложениях места и времени  с неличным субъектом (За окном мороз (морозит, морозно); Сейчас - полночь).

Таким образом, различные падежные способы оформления грамматического субъекта не являются препятствием для распознавания падежной роли соответствующих синтаксем как субъекта – носителя предикативного признака.

 

 

  1. Параметрическая модель контекста именной синтаксемы

 

В Синтаксическом словаре [1] даны классификации синтаксем различных типов. В дальнейшем наше рассмотрение будет касаться части I “Именные синтаксемы” указанного словаря. Уточним постановку задачи и определим ресурсы, которыми мы располагаем для ее решения.

Мы рассматриваем задачу анализа технических текстов на полноту описания информации для определенной проблемной области. Построение интерпретации, как уже отмечалось, связано с распознаванием значений выделенных компонент предложения. Интерпретируемыми компонентами предложения являются сегменты. Понятие сегмента обобщает понятие синтаксемы. Сегмент, как и синтаксема, характеризуется формой, значением и синтаксической функцией, но в общем случае может иметь внутреннюю структуру. Выделяются различные типы сегментов: именной сегмент, глагольный сегмент, сегмент причастного  и деепричастного оборотов, некоторые специальные типы сегментов. Синтаксическая структура именного сегмента представлена именной определительной конструкцией, в которой выделяется главное слово и зависимые определения. Значением именного сегмента будем считать значение именной синтаксемы, выступающей в качестве главного слова сегмента. В настоящей статье мы не будет рассматривать проблему сегментации предложения, с некоторыми результатами можно познакомиться в [3]. Распознавание значения именного сегмента осуществляется по указанному Синтаксическому словарю. Однако прямое применение Синтаксического словаря имеет некоторые трудности.

Дело в том, что в, общем случае, Словарь неоднозначно приписывает  значение синтаксемы по ее форме и синтаксической позиции в предложении.

Многозначность значений синтаксемы, имеющей фиксированную морфологическую форму и синтаксическую позицию, является первой проблемой. Например, для синтаксемы в форме родительного падежа без предлога в позиции III.2 (приименная позиция) Словарь дает 5 значений синтаксемы: родительный количественный (стая птиц), родительный квалитативный (человек доброй души), родительный посессивный (дом отца), родительный агентивный (приезд гостьи), родительный носителя признака (зелень трав). Эта проблема может быть частично разрешена за счет указания семантического класса синтаксемы.

Второй проблемой является распознавание синтаксической позиции синтаксемы в предложении. В наихудшем случае,  число синтаксических позиций синтаксемы равно 11, в среднем – 4.  Распознавание синтаксической позиции синтаксемы требует учета  локального и глобального контекста синтаксемы.

Следующим шагом наших рассуждений было введение понятия контекста семантического значения синтаксемы. Тем самым, проблема распознавания значения синтаксемы рассматривается как проблема распознавания контекста значения синтаксемы.

Формальный контекст синтаксемы задается параметрическим описанием, в котором выделяются следующие разделы:

  1. Идентификатор контекста;
  2. Характеристики синтаксемы
  3. Характеристики окружения синтаксемы
  4. Характеристики предложения
  5. Специальные методы проверки контекста
  6. Характеристика текста
  7. Ключевые параметры.

Далее следует детальное описание структуры формального контекста:

 

  1. Идентификатор контекста
  2. Характеристики синтаксемы

2.1. семантическая роль синтаксемы

2.2. синтаксическая функция синтаксемы

2.3. дополнительная семантическая характеристика (контекстное уточнение)

2.4. семантический тип

2.5. морфологические признаки

  1. Характеристики окружения синтаксемы

3.1. синтаксический тип окружения (граница контекста) 

3.2. характеристики главного элемента:

3.2.1.               семантическая характеристика

3.2.2.               морфологические признаки

3.3. фиксированные слова (списки слов)

  1. Характеристика предложения

4.1. Синтаксический тип

4.2. признаки предиката

4.2.1.               семантический тип предиката

4.2.2.               глагольный/неглагольный предикат

4.2.3.               признаки глагольного предиката

4.2.3.1.                     активная/ пассивная форма глагольного предиката

4.2.3.2.                     отрицательная/ положительная форма глагольного предиката

4.2.4.               тип предикатной группы

4.3. признаки грамматического субъекта

4.3.1.               наличие грамматического субъекта

4.3.2.               семантический тип

4.3.3.               морфологические признаки

4.4. фиксированные слова (списки слов)

  1. Методы проверки контекста:

5.1. вычисляемые параметры контекста

  1. Характеристика текста:

6.1. Часть текста (заголовок, раздел)

  1. Ключевые параметры.

 

 

4. Реконструкция формального контекста синтаксемы. Примеры статей словаря контекстов

 

Приведенное описание формального контекста семантической роли синтаксемы является моделью статьи нового Словаря контекстов синтаксем, разрабатываемого нами на основе Синтаксического словаря. Разработанный формат статьи является максимальным описанием. Конкретные статьи словаря содержат различные наборы параметров описания, определяемые типом контекста. Заполнение статьи осуществляется на основе неструктурированного описания соответствующей статьи  Синтаксического  словаря.  В целом, формат статьи нового словаря представляет собой обобщенный структурированный набор параметров описания, выделенный из текстовых описаний статей Синтаксического словаря.

Приведем пример статьи Синтаксического словаря и статьи Словаря  формального контекста синтаксемы, построенной на этом примере. Метод реконструкции является методом выделения параметров описания формального контекста на основе примеров использования синтаксемы в реальных текстах.

 

Статья из Синтаксического словаря [1, стр. 22].

ИМЕНИТЕЛЬНЫЙ ПАДЕЖ

А. Свободные синтаксемы

1. Номинатив (именительный наименования).

II.2. Номинатив в качестве предиката идентифицирующей модели: Это – орфографический словарь; Это – кафе "Ромашка";

         На другом берегу показался красный тусклый огонек, и они от нечего долго делать решали, костер ли это, огонь ли в окне, или что-нибудь другое…(Чехов); Это – елочка мохнатая, Это – козочка рогатая, Это- дядя с бородой, Это – дом с трубой (Чуковский); Что за станция такая? Дибуны или Ямская? А с платформы говорят: Это – город Ленинград (Маршак); … из черноты выплывали сотни ярких огней. Узловая станция? Большой промышленный город? (В. Кетлинская); Она спросила: - Что это? -  Сказал он: - Первый снег! (Л. Мартынов).

 

Анализ приведенной статьи позволяет построить описание статьи Словаря контекстов данной синтаксемы. Установленные значения параметров контекста выделены в тексте статьи жирным курсивом.   Для кодирования значений приняты обозначения: 0 – пустой признак (значение не установлено); * - любой признак (ограничения не установлены).

 

  1. Идентификатор контекста
  2. Характеристики синтаксемы

2.1.                    семантическая роль синтаксемы:   номинатив

2.2.                    синтаксическая функция синтаксемы: II.2 (значение предиката)

2.3.                    дополнительная семантическая характеристика (контекстное уточнение): 0

2.4.                    семантический тип: *

2.5.                    морфологические признаки:  им. п.

  1. Характеристики окружения синтаксемы

3.1.                    синтаксический тип окружения (граница контекста): предложение 

3.2.                    характеристики главного элемента: 0

3.2.1.               семантическая характеристика: 0

3.2.2.               морфологические признаки: 0

3.3.                    фиксированные слова (списки слов): {это}

  1. Характеристика предложения

4.1.                    Синтаксический тип: полное и неполное (вопросительное) предложение

4.2.                    признаки предиката

4.2.1.               семантический тип предиката: предикат идентифицирующей модели

4.2.2.               глагольный/неглагольный предикат: неглагольный предикат

4.2.3.               признаки глагольного предиката

4.2.3.1.                     активная/ пассивная форма глагольного предиката:

4.2.3.2.                     отрицательная/ положительная форма глагольного предиката

4.2.4.               тип предикатной группы: [ - ] определительная конструкция с существительным в именительном падеже.

4.3.                    признаки грамматического субъекта

4.3.1.               наличие грамматического субъекта: в полных предложениях 

4.3.2.               семантический тип: *

4.3.3.               морфологические признаки: им. п.

4.4.                    фиксированные слова (списки слов):  {это}

  1. Методы проверки контекста:

5.1.                    вычисляемые параметры контекста: 0

  1. Характеристика текста:

6.1.                    Часть текста (заголовок, раздел): *

  1. Ключевые параметры: 4.2.1., 4.2.4.

 

 

  1. Заключение

 

На основе Словаря контекстов синтаксем разработан механизм распознавания семантических ролей именных синтаксем. Этот механизм позволяет идентифицировать модель предложения и распознавать семантические роли синтаксем в границах установленных контекстов.

Окончательные выводы по эффективности предложенного  механизма будут сделаны после завершения разработки полного Словаря контекстов семантических ролей синтаксем различных типов. Другой важной проблемой, связанной с решением рассматриваемой задачи, является разработка полного словаря моделей глагольных сочетаний и семантико-синтаксической классификации глаголов. Процесс решения поставленных задач является сложным и трудоемким, требует участия лингвистов, работающих в традициях школы функционально-коммуникативной грамматики, однако простых решений в области автоматической обработки текстов, по-видимому, не существует.

 

 

Литература

 

  1. Золотова Г.А. Синтаксический словарь. Репертуар элементарных единиц русского синтаксиса. М., “Наука”, 1988. 440 с.
  2. Золотова Г.А., Онипенко Н.К., Сидорова М.Ю. Коммуникативная грамматика русского языка. М., 1998. 524 с.
  3. Невзорова О.А., Сергеев М.П. Алгоритмы сегментации предложений на простые составляющие. // Труды международного семинара Диалог'2000 по компьютерной лингвистике и ее приложений. Т. 2. Протвино, 2000. С.278-283.

 

 

Reconstruction of the formal context of the syntaxemes on the basis of syntactical dictionary by G. A. Zolotova

Olga A. Nevzorova

 

 

Keywords: language resources, automatic sense disambiguation, NLP

 

This paper describes the method allowing to solve a tasks of sentence segmentation and a recognition of semantic role of the sentence's interpreted component (word or segment). The approach uses as a main recourse syntaxemes' Context Vocabulary, which is being elaborated on the basis of Syntactical Dictionary.  This paper proposes a description of the formal context of the syntaxeme’s semantic role as a model of an entry in the new syntaxemes’ Context Vocabulary. Elaborated format of dictionary's entry is maximal description. Specific entries of the dictionary consist of different sets of description parameters. The entry is formed on the basis of unstructured description of the corresponding entry in Syntactical dictionary. As a whole, the format of  new vocabulary is a generalized and structured set of description parameters, extracted from text descriptions of  Syntactical dictionary entries.

Usage of the formal context for recognition of the syntaxeme’s semantic role allows to solve the given problem successfully.