ВЗАИМОСВЯЗЬ ПОНЯТИЙ В ДОКУМЕНТАХ – СОВМЕСТНОЕ ПОЯВЛЕНИЕ ИЛИ КОНТЕКСТНАЯ БЛИЗОСТЬ?

INTERRELATION OF DOCUMENTS CONCEPTS   - JOINT OCCURRENCE OR CONTEXTUAL AFFINITY?


Ландэ Д.В. , dwl@visti.net, Григорьев А.Н. , gri@visti.net,  Дармохвал А.Т., hval@visti.net, Информационный центр «ЭЛВИСТИ», Киев

 

  Приведены решения, позволяющие выявлять силу  взаимосвязей понятий, извлекаемых из неструктурированных текстов, на основе применения двух алгоритмов, первый из которых основывается на учете совместного вхождения этих понятий в одни и те же документы, а второй на учете общего контекстного окружения. Рассматриваются два вида таблиц взаимосвязей понятий. Таблицы первого вида всегда отражают взаимосвязи понятий точнее, а второго - более полно.

 

             Перспективным направлением развития технологии интеграции информационных ресурсов [1] является автоматическое извлечение понятий из неструктурированных текстов, а также выявление их взаимосвязей.

             Технологиям выявления фактографии из неструктурированных текстов посвящено достаточно много публикаций [2-5], подход авторов близок к описанному в [3]. Однако, предметом данного доклада является  не выявление понятий, а сравнение двух из множества существующих подходов к построению таблиц взаимосвязей понятий. Известно, что таблицы взаимосвязей понятий [6, 7] строятся как статистические отчеты, отражающие близость отдельных понятий (совместную встречаемость в документах или близость по сопутствующему контексту в разных документах). Это, как правило, симметричные матрицы, элементы которых – коэффициенты взаимосвязей, соответствующие ее строкам и столбцам. Эти матрицы можно также рассматривать как неориентированные графы и применять к ним соответствующие методы. Как правило, узлы этих графов – коэффициенты, которые пропорциональны количеству документов из некоторого массива, одновременно соответствующие обоим понятиям, или количеству других понятий, употребляемых совместно с данными понятиями. Таким образом взаимосвязь понятий может быть оценена с помощью двух алгоритмов:

-         совместного вхождения – путем расчета совместного вхождения этих понятий в одни и те же документы;

-         контекстной близости - путем расчета корреляций наборов смежных понятий, которые входят в документы, в которых упоминались  данные понятия.

             Существуют и некоторые другие подходы к определению близости терминов в массивах неструктурированных текстов, в частности, вероятностные или энтропийные (Mutual Information) [8, 9], но все они являются лишь предпосылками для построения таблиц взаимосвязей, их перегруппировки и визуализации [10-13].  

             Рассмотрим формальное определение таблицы взаимосвязей понятий TVP', построенной с помощью первого из приведенных выше алгоритмов. Обозначим pj – понятие (j=1,..,M), Di – документ (i=1,…,N),  Di  D  – массив документов,  eij – признак соответствия понятия документу:

 

             pj     Di     eij = 1, иначе eij = 0.

 

      Можно определить уровень связи понятий pj и pk:

              

    Введя обозначение: E = ║eijj=1,…,M; i=1,…,N  , получаем:

 

    TVP' =  ETE =v'jkj,k=1,…,M  .

 

Для случая второго алгоритма, учитывающего контекстную близость (множество понятий, входящих в документы одновременно с заданными), определим таблицу взаимосвязей понятий TVP" следующим образом. Обозначим   Wi   = {p1,…,pL– множество понятий из Di.

Рассмотрим множество понятий, содержащихся  в тех же документах из массива D, что и понятие pj :

 

Рассмотрим также матрицу T(pj)  c элементами tij, соответствующие IP(pj):

  иначе tij   = 0;

 

   T(pj) = ║tij i=1,…,M .

 

В этом случае уровень связи понятий pj и pk можно определить следующим образом:

Таким образом, таблица взаимосвязей понятий будет иметь вид:

  

   ТVP" = ║v"jkj,k=1,…,M  .

 

Основное отличие двух таблиц взаимосвязей (рис. 1) заключается в том, что таблица взаимосвязей первого вида всегда отражает взаимосвязи понятий точнее, чем таблица взаимосвязей второго типа, однако, таблица второго типа учитывает взаимосвязи более полно (v'jk  > 0   v"jk  > 0 , действительно,    (T(pj), T(pk)) = v"jk  > 0).

 

Рис. 1. Два варианта таблицы взаимосвязей понятий

 

Обратное утверждение в общем случае неверно. Проведем мысленный эксперимент, подтверждающий это замечание. Рассмотрим два понятия «пингвин» и «белый медведь». Эти понятия могут иметь ненулевое контекстное пересечение за счет таких ключевых слов, как «лед», «мороз», «рыба», однако понятие «пингвин» входит в документы, описывающие фауну Антарктики, а «белый медведь» - фауну Арктики.

Для переупорядочения понятий из таблицы взаимосвязей с целью выявления  блоков – множеств наиболее взаимозависимых  понятий (рис. 2) в рамках системы контент-мониторинга InfoStream [14] авторами применялись алгоритмы кластерного анализа, в частности, k-means, который является одним из самых эффективных для группировки динамических данных [15].

Однако задача оптимальной группировки векторов в данном случае усложняется необходимостью при перестановке номеров векторов-строк одновременно переставлять соответствующие их компоненты.

На рис. 3 представлена трехмерная визуализация первого и второго алгоритма построения таблиц взаимосвязей понятий (график, соответствующий первому алгоритму, для наглядности приподнят на 200 пунктов).

Следует отметить, что в качестве  понятий в контексте данного исследования рассматривались наименования компаний, географические названия, персоны, ключевые слова. 

 

 

Рис. 2. Кластеризация таблицы взаимосвязей понятий в системе InfoStream [14]

 

Рис. 3. Трехмерное представление взаимосвязей понятий

 

Авторам известно несколько разработок в направлении выявления взаимосвязей понятий, извлекаемых из неструктурированных текстов. Сегодня это направление особо актуально в маркетинговых и социальных исследованиях, в задачах выявления и визуализации различных сообществ, которые широко применяются в информационно-аналитических системах поддержки принятия решений (ППР) самых разных уровней.  Описанные подходы к построению таблиц взаимосвязей как первого, так и второго видов были реализованы авторами при проектировании систем ППР на основе технологии InfoStream, которые доступны аналитикам. Предпочтения при использовании определяются ситуативно, в зависимости от того, что более востребовано в текущей задаче, полнота или точность.

Вместе с тем, развитие направления несколько сдерживается недостаточными  теоретическими результатами. В частности, своего решения ждут проблемы выявления взаимосвязей с учетом некоторых дополнительных семантических характеристик, в простейшем случае - определение принадлежностей взаимосвязей к положительным (группирующим) или отрицательным (антагонистическим).

 

Список литературы

1.         Ландэ Д.В. Основы интеграции информационных потоков - Киев: Инжиниринг, 2006. — 240 с.

2.         R. Grishman. Information extraction: Techniques and challenges. In Information Extraction (International Summer School SCIE-97). Springer-Verlag, 1997.

3.         Л. М. Гершензон, И.М. Ножов, Д. В. Панкратов. Система извлечения и поиска структурированной информации из больших текстовых массивов СМИ. Архитектурные и лингвистические особенности //  Компьютерная лингвистика и интеллектуальные технологии: труды Международного семинара Диалог’2005. – М.: Наука, 2005.

4.         Протасов С. Обучение с нуля грамматики связей для русского языка // Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006. –М.: Наука, 2006.

5.         Гаврилова Т.А., Червинская К.Р. Извлечение и структурирование знаний для экспертных систем. - М.: Радио и связь, 1992.

6.         Калиткин Н.Н., Карпенко Н.В., Михайлов А.П. и др. Математические модели природы и общества –М.: ФИЗМАТЛИТ, 2005. -360 с.

7.         Додонов А.Г., Ландэ Д.В. Выявление понятий и их взаимосвязей в рамках технологии контент-мониторинга // Регистрация, хранение и обработка данных, 2006, Т. 8, № 4.– С. 45 - 52.

8.         K.W. Church, P. Hanks. Word association norms, mutual information, and lexicography, Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, 1989.

9.         Guiasu, S. Information Theory with Applications, McGraw-Hill, New York, 1977.

10.      J.P. Bagrow, E.M. Bollt. Local method for detecting communities // Physical Review E, 2005.

11.      L. Danon, A. Díaz-Guilera, J. Duch, A.Arenas. Comparing community structure identification // J. Stat. Mech. (2005) P09008. doi:10.1088/1742-5468/2005/09/P09008 PII: S1742-5468(05)07477-7.

12.      M.M. Knepper, R. Killam, K.L. Fox O. Frieder. Information Retrieval and Visualization using SENTINEL / TREC 1998: 336-340.

13.      Григорьев А.Н., Ландэ Д.В.  Многоуровневый классификатор-навигатор по откликам информационно-поисковой системы // Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции Диалог'2006 – М.: Наука, 2006. - С. 329-331.

14.      Григорьев А.Н., Ландэ Д.В., Бороденков С.А., Мазуркевич Р.В., Пацьора В.Н. InfoStream. Мониторинг новостей из Интернет: технология, система, сервис: научно-методическое пособие. – Киев: ООО «Старт-98», 2007. – 40 с.

15.      J. B. MacQueen. Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press, 1:281-297, 1967.