Сборник 2001

КЕНТАВР ПО ИМЕНИ ТЕОН: ТЕЗАУРУС+ОНТОЛОГИЯ

А.С. Нариньяни

РосНИИ искусственного интеллекта, Москва

narin@aha . ru

Последнее время Тезаурус и Онтология играют важную роль в работах, на пересечении компьютерной лингвистики и искусственного интеллекта. В докладе делается попытка с одной стороны уточнить их место по отношению друг к другу и с другой - представить концепцию, которая могла бы в перспективе интегрировать их в единый механизм.

  1. Обсуждение взаимоотношения Тезауруса и Онтологии следовало бы начать с их определений, но именно здесь до определенности достаточно далеко. При этом несколько проще дело обстоит с Тезаурусом, поскольку это понятие занимает свое место в лингвистике не менее полутора сотен лет. Заглянем в "Современный словарь иностранных слов"[1]:

Тезаурус [гр. Thesauros запас] (1) словарь, в котором максимально полно представлены все слова языка с исчерпывающим перечнем примеров их употребления в текстах; в полном объеме осуществим лишь для мертвых языков; (2) идеографический словарь, в котором показаны семантические отношения (синонимические, родо-видовые и др.) между лексическими единицами; (3) в информатике - полный систематизированный набор данных о какой-либо области знаний, позволяющий человеку или вычислительной машине в ней ориентироваться.

Это, конечно, не идеальное определение (при разнобое в терминологии идеальное вряд ли возможно), но достаточно объемное. С Онтологией же дело обстоит сложнее, - не так давно этот термин относился исключительно к философии. Например, в том же [1]:

Онтология [гр. on (ontos) сущее] - философское учение о бытии, его основах, принципах, структуре и закономерностях.

В этом определении еще не нашел отражения тот факт, что в начале 90-х годов этот термин был заново "осмыслен" искусственным интеллектом. Для данной области такая склонность к постоянному заимствованию ярких этикеток очень типична. С одной стороны, она обусловлена генетически, поскольку началась с выбора не самого скромного названия для самой области. С другой, это постоянное подбадривание себя и контекста public relation частым введением броских "лейблов", переименовывающих нечто начинающее приедаться специалистам и публике из-за слишком медленного прогресса по существу. Что-то вроде очередного перекрашивания того же автомобиля. В этом есть свой резон: в случае удачи автомобиль действительно начинает смотреться по-новому.

Итак, искусственный интеллект решил расширить горизонты и поднять до "основ бытия" уровень своего направления, занимавшегося формальными моделями (описаниями) знаний о какой-либо области, переименовав их в Онтологии. Типичная - одна из многих -характеристика читается так:

Онтология - это набор определений (на формальном языке) фрагмента декларативных знаний, ориентированный на совместное многократное использование различными пользователями в своих приложениях. В онтологии вводятся термины, типы и соотношения (аксиомы), описывающие фрагмент знания.

Видно, что (3) из определения Тезауруса и приведенное определение Онтологии почти совпадают. Это и не удивительно, поскольку еще недавно сегодняшняя Онтология именовалась Тезаурусом.

Однако теперь в наступившем смешении понятий стало ясно, что этим терминам придется размежеваться: Тезаурус скорее более закреплен за лексикой в проекции на семантику, а Онтология в ее новом, информационном употреблении - это семантика и прагматика, возможно до известной степени в проекции на язык.

 

  1. В универсальном словаре типа Тезауруса Роже (Roget's Thezaurus [2]) семантика общих понятий используется в качестве основы организации лексической информации, хотя при этом речь не идет о формализации самой семантики, способной обеспечить возможность ее машинного применения в качестве моста между системами представления знаний и естественно-языковым текстом.

Однако при создании проблемно-ориентированных интеллектуальных систем, оперирующих с ЕЯ -текстами, подобная организация Тезаурусов невозможна по ряду ПРИЧИН:        

  • Семантика различных областей вряд ли имеет единый мета-каркас, могущий послужить основой организации любого узко ориентированного тезауруса, по крайней мере, сегодня такой мета-каркас мне неизвестен.
  • Универсальные тезаурусы строятся на основе иерархической структуры, которая является естественной для текстовых тезаурусов, но никак не адекватна в реальных конкретных предметных областях.

Таким образом, проблема расщепляется на две тесно связанные составляющие: (а) языковую, организующую лингвистическую информацию о соответствующей проекции ЕЯ на данную предметную область, и (б) систему знаний об этой предметной области, в идеале - ее формальную модель (МПО).

Теперь термин тезаурус уместно было бы связать именно с первой составляющей, поскольку основной ее частью является лексика, а на других ее компонентах - морфологии и синтаксисе - специфика области отражается в гораздо меньшей степени. Термин же онтология можно было бы отнести ко второй составляющей, поскольку его использование не только отдает дань моде, но и отражает намерение технологии интеллектуальных систем переходить от конструирования приземленных и ограниченных "разовых" МПО к описаниям знаний о предметных областях, способных становиться частями более общих моделей знаний.

Таким образом, ядром интеллектуальных систем с активным использованием компьютерной лингвистики становится тандем "Тезаурус плюс Онтология", высокая интегрированность которого позволяет считать его существом нового типа - нечто вроде кентавра, которому вполне подходит имя ТЕОН.

  1. Какими представляются две основные части ТЕОНа и их отношения друг с другом? ОН: комплекс понятий от самых общих до наиболее конкретных, охватывающий полный спектр объектов и отношений, включая события и процессы, а также значения (атрибутов и отношений), определяемые, если необходимо, во времени и пространстве. Эта система сущностей связывается как универсальными зависимостями типа "общее -частное", "часть - целое", "причина - следствие" и т.п., так и специфическими для соответствующей МПО. Определяя сущности в ОН, можно использовать различные аппараты представления знаний, - например, фреймы, слоты которых связываются ограничениями, обусловливающими допустимые сочетания их значений. В качестве ограничений могут выступать продукции, логические, алгебраические, табличные и другие зависимости. Таким образом, ОН - это модель предметной области, использующая все доступные средства представления знаний, релевантные для данной области.

ТЕ: в определенном смысле ТЕ - это ОН для лингвистический знаний с проекцией на конкретную МПО. Как уже говорилось, основную часть этих знаний составляет проблемно-ориентированная лексика, организованная с учетом всех проекций этого материала: морфологии, поверхностного и глубинного синтаксиса, словообразования, синонимии, омонимии и др. С расширением применения ТЕ на системы с использованием голоса, туда должны войти и компоненты фонетики и просодии.

Мы рассматриваем здесь ТЕ и ОН как подсистемы общей структуры, естественная специализация которых связана с функциями, которые они обеспечивают: ОН формируется на основе технологии знаний специалистами - инженерами знаний и экспертами в соответствующей предметной области, а ТЕ - компьютерными лингвистами, создающими проекцию на эту область лингвистического обеспечения.

Однако это разделение условно: между ТЕ и ОН нет четко определенной границы, они слишком тесно взаимосвязаны и со временем, возможно, будут эволюционировать из тандема в нечто иное.

Например, универсальным дополнением ТЕ и ОН должна служить система синтактико-семантических эквивалентных преобразований, позволяющая каждой включенной в Тезаурус лексической конструкции сопоставить максимально полное множество содержательно эквивалентных ей форм.

  1. При зачатии ТЕОНа стоит присмотреться к возможным областям его применения.

Кажется достаточно очевидным, что ТЕОН может использоваться как для анализа, так и для синтеза ЕЯ-текста. При анализе любая значимая (семантически нагруженная) ЕЯ лексема отражается через ТЕОН во множество потенциально соответствующих ей смыслов. Для группы связанных лексем их смыслы в общем случае пересекаются, уточняя их возможную общую семантику.

Поскольку у компонентов Онтологии возможность вступления в комбинации ограничена (как у атомов при образовании молекул), то смыслы нескольких текстовых составляющих образуют небольшое число вариантов релевантных семантических структур, которое сокращается с расширением контекста соответствующего фрагмента.

Таким образом, до известной степени этот процесс анализа может происходить параллельно, примерно так же, как восприятие зрительного образа. Естественно, в этом случае ТЕОН должен работать с лингвистическими компонентами, реализующими такие проекции языка, как коммуникативный контекст, структура текста, анафора и др., выходящими за традиционные рамки сегодняшнего термина Тезаурус и образующими нечто гораздо более масштабное, включающее ТЕ (или ТЕОН) как один из своих компонентов.

Еще один важный аспект этого процесса: как представляется, наиболее естественно ТЕОН вписывается в рамки семантически-ориентированного подхода. При этом процесс от текста к смыслу или vice versa не связывается с поступательным фронтальным движением "по уровням", как это предполагалось в моделях типа "Смысл-Текст". Во-первых, - в связи с тем, что сами эти стандартизованные уровни в ТЕ не присутствуют. А во-вторых, -потому, что движение от текста к смыслу идет при анализе асинхронно, элементы теста при этом "прорываются" к смыслу самостоятельно, обращаясь к своему окружению в ТЕ только в пределах необходимости и рекомбинируя в ОН для уточнения своего значения.

Примерно то же происходит и в процессе синтеза: компоненты смысла ищут свои "ближайшие" текстовые реализации. При этом расширение их множества происходит в том случае, если этого требует процесс сочетания более элементарных текстовых составляющих в более сложные или доопределение тех и других в составе создаваемых синтаксических конструкций.

Очевидно, что сегодня, в отличие от семидесятых годов, фокус применений интеллектуальных систем обработки ЕЯ-текста сместился из области "чистых" анализа и синтеза к таким взаимосвязанным зонам приложений, как:

  • Поиск в Интернете и в корпусе текстов в конкретных ПО,
  • Индексация материалов ПО,
  • Контент анализ,
  • Реферирование,
  • Понимание текста в узких ПО,
  • Интеллектуальные машинные словари, сочетающие тезаурус, толковый и фразеологических словарь, их взаимосвязь со словарями других языков,
  • Прагматически-ориентированный диалог и т.п.

Также очевидно, что ТЕОН и его составляющие не могут быть созданы "совершенными" одним большим скачком. И потому, что их создание по необходимости должно пройти этапы от простого к сложному. И, естественно, потому что планка этого совершенства будет постоянно расти с развитием компьютерной лингвистики и технологии знаний.

  1. Таким образом, если сама концепция ТЕОНа достойна разработки, то сегодня наша задача требует убедительного эксперимента, для которого необходимо:
  • выбрать приложение, - например, поиск в корпусе текстов,
  • определить конкретную ПО,
  • создать ее Онтологию,
  • разработать ее Тезаурус,
  • обеспечить эффективность взаимосвязи Тезауруса и Онтологии для
    функционирования ТЕОНа как единого целого.

У последней задачи сразу же выделяются два уровня:

А. оперативный - согласование и взаимодействие двух разных формальных аппаратов: компьютерной лингвистики и представления знаний;

В.  стратегический - создание единой "нервной системы" ТЕОНа,

Возможно на обоих этих уровнях можно попробовать решать задачу с помощью единого механизма.

Если представить обе части ТЕОНа в виде одной семантической сети, активно поддерживающей прагматику своих элементов и реагирующей на события на любом своем участке, то ассоциативные связи помещенных в нашу сеть знаний могут послужить основой той самой нервной системы, о которой идет речь.

Естественно, что направление возбуждения при этом должно быть контролируемо текущим процессом, иначе вся сеть будет взрываться транзитивным замыканием графа ее ассоциативных связей. Но для того чтобы управлять, надо создать ту среду, которая станет объектом управления, т.е. ту сеть, в которой каждая семантическая связь между ее элементами ассоциативно активирована и способна передавать возбуждение в любом нужном направлении.

Мне представляется, что прототип такой среды удалось создать в нашем институте А.И.Пацкину (проект Абриаль) [3]. Сейчас в эту среду перенесена доступная в Интернет ранняя версия Тезауруса Роже и результаты этого эксперимента кажутся обнадеживающими.. К сожалению, доклад по проекту Абриаль на этот Диалог подготовить не удалось.

  1. Итак, в нашей пока виртуальной модельной задаче ТЕОН используется для поиска в корпусе текстов.

При этом система получает запрос на ЕЯ с формулировкой темы поиска. Запрос анализируется через ТЕОН, в результате чего строится его семантический образ. Этот образ активирует семантическое подпространство, покрывающее все возможные семантические составляющие, релевантные в ОН данному запросу. А семантическое подпространство, в свою очередь, синтезирует на основе ТЕ и других лингвистических компонентов все текстовые реализации этих составляющих, которые используются поисковым механизмом в качестве образцов в процессе поиска.

Естественно, что само наличие корпуса текстов является технологической базой для формирования и ТЕ и ОН, не говоря о поисковом механизме. При этом может оказаться, что МПО данной области распадается на несколько взаимосвязанных, но содержательно различных составляющих, порождающих соответствующий комплекс вложенных ТЕОНов, достаточно разнородных, хотя (возможно, но необязательно) и активно взаимодействующих.

В данном случае интеграция частей ТЕ этих составляющих в единый ТЕ вряд ли окажется чересчур сложной. Но в отношении частей ОН это может значительно затруднить проблему: сведение различных онтологии в одну может потребовать слишком большого объема усилий.

Но в определенном смысле это и к лучшему: декомпозиция онтологии в ТЕОНе расширяет ее модульность, что правильно и технологически и с точки зрения инженерии знаний. Такая "конфедеративная" организация ТЕОНа упростит создание систем для тематически разнородных корпусов.

  1. Перейдем к заключению. Перекрывающиеся сегодня понятия Тезауруса и Онтологии предлагается функционально и концептуально развести, создав на основе их тандема нечто единое, охватывающее как МПО, так и ее лингвистическое (в простом случае хотя бы лексическое) обеспечение. Это новое образование предлагается назвать ТЕОН в честь исходных слагаемых.

Мне кажется, что ТЕОН, если его предварительные и упрощенные версии появятся в достаточно близком будущем, станет со временем ключевым компонентом интеллектуальных систем, оперирующих с ЕЯ-текстами.

Литература

Современный словарь иностранных слов, С.-Петербург 1994

Roget's Thezaurus, N.Y. 1974

Пацкин А.И. Программа ABRIAL - конструктор баз знаний в системе ИНФО-Т. Труды Седьмой национальной конференции по искусственному интеллекту КИИ-2000, Переславль-Залесский, 2000

 

A Centaur by name TEON; Thesaurus + Ontology A.S.Narin'yani

Recently the Thesaurus and Ontology notions are playing more ana more important role at intersection of the Computational Linguistics and Artificial Intelligence. In this report an effort is made to define more definite their places in respect to each other as well as to present a conception which would may integrate them in outlook in some unified mechanism.