Сборник 2002

ДИНАМИЧЕСКАЯ МОДЕЛЬ ЕСТЕСТВЕННОГО ЯЗЫКА В СИСТЕМАХ ПОЛЬЗОВАТЕЛЬСКИХ ИНТЕРФЕЙСОВ

 

 

Г. М. Емельянов

Новгородский государственный университет имени Ярослава Мудрого

gem@novsu.ac.ru

 

Д. В. Михайлов

Новгородский государственный университет имени Ярослава Мудрого

mdv@novsu.ac.ru

 

Е. И. Зайцева

Новгородский государственный университет имени Ярослава Мудрого

shi@novsu.ac.ru

 

 

Ключевые слова: интерфейс естественный язык модель данные объект лексема лингвистический предметный информация структура сочетаемостный семантический свойство динамический концептуальный комбинаторный словарь взаимодействие характеристика правило установление синтаксический отношение статья запись переменный длина совокупность комплексированный контекст классификационный операционный элемент связывание разнотипный логический процесс пространство состояние сценарий активность одновременность переход условие маркер разметка анализ ограниченный сеть принцип хранение поиск

 

В данной работе рассматриваются предлагаемые авторами концептуальные основы динамического моделирования подсистемы обработки естественного языка пользовательских интерфейсов к структурированным источникам данных. За теоретическую основу построения языкового компонента берется теория языка как преобразователя “СмыслÛТекст”. Выносится на рассмотрение новая концепция модели языкового компонента на основе согласования работы грамматики и комбинаторного словаря в рамках интегрального описания языка. Исследуется возможность применения динамических информационных структур для представления и совместного использования разнотипной лингвистической и предметной информации, описываемой комбинаторным словарем естественного языка и семантикой предметной области.

 

 

Постоянное увеличение производительности вычислительной техники при снижении ее стоимости способствует появлению новых интеллектуальных технологий переработки информации и, в первую очередь,технологий, связанных с разработкой интерфейсов на Естественном Языке (ЕЯ) к Базам Данных (БД) и Знаний (БЗ). Обще­ние пользователя и ЭВМ так или иначе предполагает занесение или извлечение инфор­мации из хранилищ данных –Структурированныз Источников Данных (СИД) : БД, HTML – документов. При наличии большого количества экспериментальных проектов (и даже коммерческих систем) отсутствует общепринятая модель данных для представ­ления знаний о ЕЯ. Это связано прежде всего с недостаточной теоретической изучен­ностью вопроса формализации представления именно лингвистических знаний, нали­чием ряда проблем, обусловленных фактическим отсутствием опыта применения со­временных, прежде всего объектно - ориентированных технологий к решению задач оперирования большим количеством разнотипных объектов - лексем, допускающих множественное наследование и большую сложность структуры. Публикации по при­кладной лингвистике отечественных и зарубежных ученых позволяют констатировать отсутствие какой-либо единой стратегии в представлении лингвистической и предмет­ной информации в системах естественно-языкового общения. Разработка структур дан­ных, позволяющих оперировать единым описанием лексем  ЕЯ, их лексико - сочетае­мостных, семантических и предметных свойств не только инициировала бы разработку новых алгоритмов, учитывающих результаты научных исследований в области лин­гвистики, но  и позволила бы с теоретических позиций обосновать принципиальную возможеость реализации этих алгоритмов для решения задач реальной степени сложно­сти.

В настоящей работе исследуется возможность применения динамических инфор­мационных структур [1,9] при представлении модели естественного языка для системы пользовательского интерфейса к СИД. Рассмотрение ведется относительно семантиче­ски –ориентированного подхода [3,4,7] к  разработке ЕЯ –интерфейсов .

 

При использовании указанного подхода к разработке ЕЯ –интерфейсов в качестве промежуточных звеньев между пользователем и СИД выступает Модель Предметной Области (МПО). Концептуальные основы моделирования предметной области разраба­тывались в течение последних 20-25 лет и нашли отражение в технологии построения ЕЯ – интерфейсов к СИД [3,4]. Следует отметить, что несмотря на хорошую теоретиче­скую и практическую проработку этой технологии со стороны семантики предметной области, фактически за кадром остались вопросы распознавания смысла ЕЯ – запросов к БД. Для осуществления перевода из представления на ЕЯ в соответствующее пред­ставление на языке МПО предложенную автором [4] систему необходимо дополнить подсистемой обработки ЕЯ (модель ЕЯ  на  рис1). Назначение ее – хранение и оперирование лин­гвистической информацией, позволяющей строить смысловое представление ЕЯ – за­просов. Причем объем поступающей на вход этой подсистемы информа­ции, как показывает опыт разработки лингвистических процессоров для информационных систем различного назначения [5], существенно больше, чем представлено в МПО: кроме слов, обозначающий сущности пред­метной области и их отношения, здесь также выступают общеупотре­бительные слова, предлоги¸ союзы, частицы, отношения синтаксического подчинения. Следует отметить, что задача перевода ЕЯ – высказываний на язык семантических отношений, свойственных предметной области, ужк решалась разработчиками Систем Машинного Перевода (СМП) ЭТАП, упоминаемой в [5]. При разработке подсистемы обработки естественного языка общепризнанным методом исследования и описания естественных языков признаются лингвистические модели “СмыслÛТекст” [6]. Основные проблемы при компьютерной реализации подсистемы понимания текста на ЕЯ, описанной в [5], – хранение и оперирование большим объемом описываемой Толково-Комбинаторным Словарем (ТКС) ЕЯ [5,6] информации, необходимой для осуществления перевода “СмыслÛТекст”.

До недавнего времени многие исследователи, работавшие над созданием полной компьютерной реализации модели “СмыслÛТекст”, ставили задачу понимания машиной текста на ЕЯ в корне противоречащим самой природе ЭВМ образом: заложить в память ЭВМ достаточно большой запас слов, взяв за основу лексику, принадлежащую словнику ТКС, используя технологии реляционных СУБД, описать лексическую и синтаксическую сочетаемость рассматриваемой лексемы с другими лексемами в рамках теоретического подхода к ЕЯ как преобразователю “СмыслÛТекст”. Представление о предметной области как абстракции, равноудаленной от ЕЯ и базы данных, не вводилось как таковое, попытка реализовать ТКС некоторого ЕЯ заканчивалась тем, что он оказывался “привязанным” к предметной области, не выполнял функции активного словаря базы знаний естественного языка. Распространенная ошибка, как показала апробация результатов исследований авторов данной статьи, состоит в понимании ТКС именно как модели предметной области [2]. Сама идея ТКС состоит в том, что он представляет знания о конкретном ЕЯ, а модель предметной области описывает поведение ее объектов в их взаимодействии. Попытка “наложить” на ТКС решетку классов предметной области приводит к тому, что ТКС перестает быть активной частью модели именно языка и вырождается в тезаурус предметной области, не описывающий язык как таковой [2]. “Пассивное” представление знаний о языке приводило к отсутствию обучаемости системы: и в плане формирования “представлений об окружающем мире”, фиксируемых в модели предметной области, и в плане обучения самому языку.

В идеале модель ЕЯ (рис.1) должна уметь при построении Поверхностно – Синтак­сической Структуры (ПСС) и Глубинно – Синтаксической Структуры (ГСС) (см. [5,6]) оперировать совокупностью лексем, их характеристик, правил установления синтакси­ческих отношений, рассматриваемых как единое целое в современной концепции ТКС (см. [5]). Как было показано в [5], основная часть информации о лексемах, необходи­мой для анализа и синтеза высказываний ЕЯ, описывается статьями ТКС. Такая ин­формация представляется записями переменной длины, соответствующим статьям тол­ково – комбинаторного словаря. Таким образом, совокупность данных, соответствую­щих статье ТКС, можно считать комплексированными данными [1,9], а структура для представления информации ТКС будет ничем иным, как базой комплексированных дан­ных. Связанную единым контекстом классификационную и операционную информа­цию [5] о каждой лексеме будем считать информационным элементом.

Связывание и совместное (комплексированное) использование сложных разно­типных данных о языке, представляемых в графическом и текстовом виде, требует оп­ределения новой логической модели данных, отличающейся от традиционных дина­мичностью информационной структуры.

Возможное решение задачи построения логической модели для подобных структур заключено в структурировании (упорядочивании) связей между информационными элементами и формализации процессов, происходящих в подобных структурах. Для представления информации в базе с разнотипными данными, ориентированной на контекстный поиск, достаточно доступа к некоторому срезу или подмножеству всего информационного пространства. В этом смысле, СУБД, поддерживающая динамическую визуализацию комплексированных данных, функционирует переводя систему из состояния в состояние, каждое из которых определяется в конкретный момент времени неким активным подмножеством информационных элементов. Поддержку такой динамичности изменения доступного информационного пространства мы назовем динамичностью информационной модели. Динамически меняющуюся от состояния к состоянию совокупность разнотипных данных, используемых в одном контексте, будем  называть динамическим срезом информационного пространства или сценарием.

Теоретические исследования по определению и формальному описанию динамических информационных структур ведутся с середины 80-х  годов. Анализ работ, посвященных формализации динамической модели данных, позволяет выделить ряд существенных недостатков использования этих моделей в качестве аппарата моделирования структуры данных для представления знаний о  ЕЯ. Попытка имитации динамичности информационной структуры в рамках традиционных подходов (сетевой, иерархический, реляционный) приводит к нарастающей сложности описания структуры и аппарата манипулирования лингвистическими данными. Использование традиционных сетевых моделей с объектно – ориентированными свойствами недостаточно эффективно ввиду отсутствия хорошо разработанного формального аппарата манипулирования данными, что опять приводит к его сложности. Формализация динамической информационной структуры в рамках гипертекстовой технологии сложна из-за отсутствия набора формальных методов описания гипертекстовой структуры и аппарата манипулирования данными.

Следствием сказанного является, предлагаемая авторами данной работы, концептуальная модель динамической информационной структуры, которая в силу свойств подобной структуры, в частности, может быть использована как концептуальная модель языкового компонента пользовательского интерфейса к БД:

Динамическая информационная структура  есть совокупность ,

 где  - множество информационных элементов, объединяющее разные множества элементов определенного типа;

 - множество разрешенных переходов;

 - множество сценариев;

и  - отображения .

Множество информационных элементов V  есть множество связанных единым  контекстом данных о лексемах, описываемых либо ТКС, если это общеупотребительная лексика, либо семантикой предметной области, если это предметная лексика.. Элемент считается активным в некоторый момент времени, если в данный момент времени идет анализ фразы, содержащей соответствующую этому элементу лексему. Совокупность одновременно активизированных элементов, представляющих данные лексем анализируемой фразы ЕЯ, назовем сценарием . Разрешенное подмножество переходов из всего множества вычленяет функция . Наконец, каждый переход, в свою очередь, посредством отображения , определяет свое подмножество активных  элементов, соответствующих очередной фразе и определенное как сценарий.

Следует отметить, что в отличие от рассматриваемых в [1,9] гипертекстовых информационных структур с изображениями, исследуемый здесь процесс анализа смысла фраз ЕЯ предполагает, что сам сценарий является динамической информационной структурой, в которой сценарии состоят из одного элемента, соответствующего лексеме с ее описанием по ТКС или МПО, а срабатывание переходов происходит при установлении связей (синтаксических отношений) между лексемами, причем условия установления синтаксических отношений описываются соответствующими статьями ТКС (модели управления лексем, словарные правила [5]).

Предложенная выше концептуальная модель естественным образом согласуется с математическим аппаратом сетей Петри [8], более конкретно - введенным автором [9] аппаратом ограниченных сетей Петри. Для адекватного описания работы “вложенных” динамических информационных структур, сответствующих анализируемым фразам, работу модели языка в целом предлагается описывать сетью Петри с разделением : представленный автором [9] аппарат ограниченных сетей Петри описывает работу языковой подсистемы в целом, а сценарий (анализ отдельной фразы) моделируется вспомогательной сетью Петри, запускаемой по  достижению заданного сценария в основной сети. С целью согласования работы основной и вспомогательной сети вводится цвет маркера : белый маркер – для работы со сценариями основной сети, соответствующим фразам ЕЯ (переходы от фразе к фразе), цветной маркер появляется в начале работы вспомогательной сети, соответствующей конкретной анализируемой фразе, он существует вплоть до достижения вспомогательной сетью тупиковой разметки, соответствующей окончанию анализа фразы. Основная сеть Петри находится в приостановленном состоянии, пока существует хотя бы один цветной маркер. По достижению тупиковой разметки цветной маркер уничтожается, работа основной сети возобновляется. Введение тупиковой разметки для вспомогательной сети является необходимым ввиду конечности моделируемого ей процесса – анализа фразы ЕЯ, наступает момент, когда все связи установлены и нужно переходить к анализу следующей фразы (переход к следующему сценарию в основной сети). Тем не менее, моделируемая с помощью ограниченной сети Петри с разделением динамическая информационная структура будет удовлетворять требованиям активности и живости [8], так как при любой разметке существовует возможность либо продолжения поиска, либо возврата к некоторому предыдущему состоянию. Введение дополнительного маркера не приводит к нарушению безопасности сети, поскольку исходно на структуру сети накладывается ограничение, заключающееся в том, что количество фишек (маркеров) одного цвета в любой позиции не может быть более одной и модель динамической информационной структуры безопасна в течение всего времени функционирования приложения.

Основные трудности при компьютерной реализации модели естественного языка на основе предложенных в настоящей публикации принципах – хранение записей переменной длины. Поэтому в качестве направления дальнейших исследований авторами данной статьи намечена разработка и программная реализация улучшенных методов хранения - поиска информации и реконфигурации структуры, ориентированных на предложенную модель

 

 

 

 

Литература

 

 

  1. Гузеев С.А., Смирнова Е.И. Организация интерактивных взаимодействий в специализированной системе управления гиперсегментной базой графической информации // Распознавание образов и анализ изображений : перспективные информационные технологии : Тез. Докл. Респ. Научн.-техн. Конф. РОАИ-2-95 В 4-х частях. Ульяновск, 1995. Часть 2. С. 51-54.
  2. Емельянов Г.М., Михайлов Д.В. Вопросы моделирования семантической связанности для систем понимания текста // Тезисы докладов. 5 – я Международная конференция “РАСПОЗНАВАНИЕ-2001”. Курск, 2001. Т.1. С. 56- 58.
  3. Жигалов В.А. Об опыте разработки системы построения ЕЯ-интерфейсов к базам данных. // Труды международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Казань, 1998. С. 801 - 808.
  4. Жигалов В.А. Применение семантически-ориентированного анализа для построения естественно-языковых интерфейсов к реляционным СУБД. // Микроэлектроника и информатика-99, тезисы докладов. Всероссийская межвузовская научно-техническая конференция студентов и аспирантов. М., 1999. С. 184.
  5. Лингвистический процессор для сложных информационных систем / Под ред. Л.П. Крысина. М.:Наука, 1992. 256 С.
  6. Мельчук И.А. Опыт теории лингвистических моделей “СмыслÛТекст” : Семантика, синтаксис. М.:Наука, 1974. 314 С.
  7. Нариньяни А.С. Автоматическое понимание текста - новая перспектива // Труды международного семинара Диалог-97 по компьютерной лингвистике и ее приложениям.. М., 1997. С. 203-208.
  8. Питерсон Дж. Теория сетей Петри и моделирование систем. М.:Мир, 1984. 298 С.
  9. Смирнова Е.И. Вопросы моделирования биомедицинских систем с комплексными данными // Биомедицинские приборы и системы : Тез. Докл. Респ. Научн.-техн. Конф. Рязанск. Гос. Радиотехн. Акад. 12-15 апреля 1994 г. Рязань, 1994. С. 13-14.

 

 

 

 

 

 

Dynamic model of the natural language in systems of user interfaces

  1. M. Emelianov, D. V. Mikhailov, E. I. Zaytceva

 

Keywords: the interface the natural language model the data the object a lexema linguistic subject the information structure compatibility semantic property the dynamic conceptual combinatory dictionary interaction the characteristic corrected installation syntactical the ratio clause(article) recording variable length a collection complex a context a classification operational unit binding the varied logical process space a state the script activity a simultaneity transition a condition a marker sectoring the analysis the principle limited the network storage search

 

 

In the given article conceptual bases of dynamic simulation of a subsystem of a natural language processing offered by authors for systems of user interfaces to the structured data sources are considered(examined). Language the component takes a theoretical basis of construction the theory of the language as converter of senses in texts. The component is placed for consideration on the new concept of model language on the basis of the coordination of operation of grammar and the combinatory dictionary within the framework of the integral description of the language. Possibility of application of dynamic information structures for representation and shared use varied linguistic (described by the combinatory dictionary of the natural language) and subject (described semantics of data domain) the information is researched.