Proceedings 2002

Contents

ТAБЛИЦЫ КАК ВЕРБАЛЬНО-ГРАФИЧЕСКАЯ ФОРМА ПРЕДСТАВЛЕНИЯ НАУЧНЫХ ЗНАНИЙ [1]

 

 

О. А. Курчавова

Институт проблем информатики РАН

olga@a170.ipi.ac.ru

 

 

Ключевые слова: полнотекстовые научные документы, вербально-графические компоненты, формализованное описание таблиц

 

Темой сообщения является моделирование вербально-графических коммуникативных компонентов полнотекстовых научных документов. Вербально-графические коммуникативные компоненты рассматриваются на примере таблиц. Родовым признаком таблиц является графический конструкт в виде пересекающихся под прямым углом горизонтальных и вертикальных линий, образующих ячейки. Проводится анализ изоконцептуальных объектов. Показывается, что в предметных областях существует ряд концептов, которые традиционно представляются в виде таблиц. Изучается соотношение вербального описания и топологии таблиц. Рассматриваются средства номинации и предикации в таблицах. Приводится пример когнитивного и формализованного описания таблиц.

 

 

1. Введение

 

Тема сообщения относится к одной из важнейших проблем компьютерной текстологии - созданию логико-семантической модели научного документа. Рассматривается этап моделирования вербально-графических компонентов научного документа. Вербально-графические компоненты научного текста исследуются на примере таблиц.

Предметом сообщения является когнитивно-лингвистический анализ документов по наукам о Земле, существенная часть содержания которых представлена в виде таблиц. В качестве материала для исследований послужил корпус статей из журналов "Геотектоника" за 1998г., "Стратиграфия. Геологическая корреляция" за 1999г., "Геология рудных месторождений" за 1997г. Проведен анализ 150 вербально-графических компонентов. Методы и подходы, использованные в процессе исследования, основаны на принципе проекции лингвистических методов моделирования текста на вербально-графические составляющие полнотекстового научного документа и представляют собой синтез семантико-синтаксического анализа, формально-грамматического аппарата и инженерии знаний [1, стр. 6]. Вербально-графические компоненты рассматриваются как невербальные тексты, подобные высказываниям естественного языка. В задачи исследования входит изучение средств номинации и предикации, соотношения вербального описания и топологии таблиц, когнитивное и формальное описание таблиц.

Таблицы являются одной из категорий вербально-графических компонентов полнотекстового научного документа. При этом научный документ понимается как сочетание вербальных и невербальных коммуникативных компонентов разных видов. Концептуальная основа такого подхода была сформулирована Дж. Лемке [2]. Существует несколько классификаций вербально-графических компонентов. В соответствии с одной из таксономий, разработанной на основе данных психо-лингвистического эксперимента, выделяется 11 их категорий, а именно: графики, простые таблицы, таблицы с графическим содержанием ячеек, хронограммы, схемы, структурные диаграммы, блок-схемы, карты, картоподобные диаграммы, пиктограммы, рисунки [3]. В соответствии с этой классификацией таблицы делятся на простые и графические. Мы подразделяем таблицы на большее число категорий, начиная от простых таблиц с равным числом строк в каждом столбце до таблиц с группировкой строк, столбцов и таблиц с визуальными данными в ячейках или ячейками, образованными не только сплошными прямыми линиями [4]. При этом родовым признаком таблиц является графический конструкт в виде пересекающихся под прямым углом горизонтальных и вертикальных линий, образующих ячейки [5]. В соответствии с другой таксономией [6] все компоненты, которые не являются чисто текстовыми или чисто изобразительными, расширительно трактуются как диаграммы.

Традиционно под диаграммой понимается "чертеж, наглядно показывающий соотношение между различными величинами, изображаемыми в виде линейных отрезков или геометрических фигур" [7, стр. 164]. Мы предлагаем вместо слова "диаграмма" использовать термин "вербально-графические коммуникативные компоненты" (ВГК) [8]. К ним относятся таблицы, диаграммы, графики, схемы. Независимо от используемой классификации эти объекты трактуются авторами как эксплицитная форма представления знаний. Приведем еще два определения таблиц, которые имеют принципиальное значение для настоящего исследования. "Таблицы - это размещение слов, чисел, знаков или их комбинаций для представления фактов и отношений между ними в компактном формате" [3]. В глоссарии консорциума W3C подчеркивается, что отношения, задаваемые таблицей, являются логическими и могут выражаться визуально, как правило, в виде двумерного массива [9].

Перечислим кратко исходные положения данного исследования: (1) таблица - это форма представления знаний; (2) таблица фиксирует логические отношения между представляемыми фактами; (3) таблица - знаковое образование, включающее вербальные и невербальные знаки.

 

 

2. Изоконцептуальные объекты

 

В фокусе настоящего исследования находятся изоконцептуальные объекты (ИК объект), понимаемые как актуализированный концепт, представляемый и в виде ЕЯ текста, и в форме графического образа [10]. Необходимо отметить, что «идеальных» изоконцептуальных объектов со стопроцентным соответствием вербального описания и графического образа на практике немного. Существуют концепты, которые принципиально невозможно перевести на ЕЯ [11]. Встречаются сложные виды таблиц, которые не приспособлены для "линейного прочтения", так как имеют ячейки, не образующие линейные последовательности столбцов или строк.

В настоящее время нас интересует область пересечения содержательных аспектов ВГК и его вербального описания. Исследование и описание средств номинации и предикации, которые являются специфическими для вербального текста и для ВГК, являются дальнейшими задачами исследования.

На практике в научных документах редко встречается полное по содержанию вербальное описание рисунка. Роль вербального пояснения частично восполняет глосса, включающая подрисуночную подпись, условные обозначения и пояснения [12].

Дж. Лемке считает, что «идеальных» изоконцептуальных объектов не существует, так как вербальное описание и графический образ по содержанию не могут совпадать, а могут только дополнять друг друга [2]. Однако уже описаны примеры научных документов, где часть содержательных аспектов описана вербально, а потом те же содержательные аспекты полностью переданы в графической форме [13]. В одном из примеров рассматривается случай "перевода" вербального текста на визуальный геоязык на примере описаний геоданных, называемых литолого-стратиграфическими разрезами. Показывается, что адекватный перевод вербального описания на визуальный геоязык возможен в силу линейности языка описания литолого-стратиграфических разрезов.

Мы исследуем план выражения неких концептов, представленных вербальными и графическими средствами. К вербальному описанию относится и подрисуночная подпись, которая является ярлыком, задающим ситуацию [12], а сам вербально-графический компонент является конкретным проявлением ситуации.

Анализ 150 подрисуночных подписей показал, что в их составе имеются термины с высоким уровнем абстракции, например: "характеристики", "состав", "соотношение", "эволюция". Подобные термины можно предварительно разделить на 4 группы: объект (процесс, феномен), атрибут (характеристика), строение/состав, отношение. К первой группе можно отнести такие лексемы, как "эволюция", "флорогенез", "фауна", "условия формирования". Например: "Фауна мелких млекопитающих в разрезе Лог Красный". Ко второй группе относятся: "значения", "отличия", "возраст", "температура". Например, "Изотопные отличия типов руд месторождения Юрьевское". К третьей группе можно отнести "видовой/химический/изотопный состав", "содержание". Например, "Состав самородного железа". В четвертую группу входят лексемы "сопоставление", "сравнение", "корреляция", "взаимоотношения". Например, "Корреляция верхнемезозойских отложений северной и южной части п-ва Корея".

В науках о Земле существует ряд концептов, которые традиционно в научных документах представляются вербально-графически в виде таблицы (см. рис. 1.).

 

Рис. 1. Корреляция верхнемезозойских отложений северной и южной части п-ва Корея. Сокращения: ф – формация, гр – группа [19].

 

Обобщенные концептуализации образуют верхний уровень онтологии, которая представляет собой систематическое описание единиц номинативного характера и имеет двухуровневую структуру [14]. Нижний уровень онтологии отражает специфику конкретной области науки. Основным видом отношений в данной онтологической модели являются иерархические, "часть-целое" и деривационные ("палеозой" - "палеозойский").

Подрисуночная подпись часто соотносится с топологией таблицы. Если в подрисуночной подписи содержится указание на возраст ("Положение раннеплейстоценовых местонахождений мелких млекопитающих"), то на рисунке, как правило, будут представлены соответствующие участки одной или нескольких шкал. В таблице шкалы являются основным средством задания параметрических отношений. Сходные исследования проводились в отношении пространственных отношений, задаваемых полигоном и пересекающим его отрезком. При этом рассматривалась соотнесенность пространственных отношений с предикатами ЕЯ [15].

 

 

3. Когнитивное описание таблиц

 

В интересах данного исследования был составлен пример когнитивного описания таблицы на основе ее вербального описания и схемы иерархической декомпозиции. Вербальное описание таблицы составлялось по методу вербального описания сцен [16] на основе ее описания, извлеченного из текста документа, с привлечением эксперта в данной предметной области.

Приведем фрагменты этого вербального описания таблицы (см. рис. 1): "Серия Часон включает три свиты: Чимчен, Тэбосан и Мангенды." "Верхняя свита Мангенды без признаков несогласия сменяет свиту Тэбосан." "Породы верхнего мезозоя в северной части п-ва Корея относятся к трем стратиграфическим интервалам: верхней юре-неокому, верхнему готериву-альбу и верхнему мелу."

С помощью предиката "состоит из" строится аналитическое представление иерархической структуры вербально-графического компонента (послойно - сверху-вниз).

Приведем фрагмент иерархической декомпозиции таблицы. Рисунок состоит из двух частей. Часть 1 состоит из 3 шкал. Часть 2 - верхнемезозойские отложения северной и южной части п-ва Корея в бассейнах пяти рек.

<Шкалы> ® <Геохронологическая>, <Стратиграфическая>, <Абсолютного возраста>.

<Геохронологическая шкала> ® <Палеоген> <Мел> <Юра>.

<Северная и южная части п-ва Корея> ® <Бассейн реки Амнок><Бассейн реки Рэсон> и т.д.

На основе описанных вербально-графических объектов мы выделяем типы объектов.

Тип 1 уровня - таблица

Тип 2 уровня - шкала, региональная привязка

Элементарным когнитивным объектом является ярус (Альб, Апт, Баррем), который входит в состав когнитивного объекта более высокого уровня, соответствующего столбцу таблицы и представляющего стратиграфическую шкалу. Примером другого элементарного когнитивного объекта является свита (Синичжу, Понсу) или формация (Накдон). Они входят в состав когнитивного объекта более высокого уровня, соответствующего столбцу таблицы и представляющего разрез верхнемезозойских отложений в конкретном месте.

 

 

4. Средства номинации и предикации

 

Приведем еще одно определение, которое полезно для наших исследований. "В каждой таблице имеется подлежащее, т.е. объект или группа объектов, о которых говорится в данной таблице, и сказуемое, т.е. признаки, характеризующие подлежащее. Таблица состоит из горизонтальных делений (строк) и вертикальных делений (колонок, столбцов или граф). Строки обычно служат для записи подлежащего таблицы, а графы - для признаков, составляющих сказуемое. Пересечение горизонтальных и вертикальных линий образует клетки таблицы, в которых располагаются данные..." (17, стр. 471-472)

Единицы номинативного характера представлены в таблицах в виде конвенциональных обозначений, идеографических знаков, вербальных единиц и различных сочетаний таких объектов. В процессе структурно-семантической декомпозиции и анализа вербально-графических и вербальных высказываний проводится синтаксический анализ и выявление основных типов вербальных и невербальных синтаксем и изоконцептуальных единиц и устанавливаются отношения синтаксической деривации и синонимии вербальных и вербально-графических структур. Выделяются и описываются основные виды предикатов.

 

 

5. Формализованное описание таблиц

 

Когнитивное описание вербально-графического объекта переведем в формализованное описание на основе аппарата расширенных семантических сетей [18]. Для этого выполняются следующие действия:

  1. Выделяем типы связей (отношений) между объектами и резервируем их в качестве имен предикатов.
  2. Проводим иерархическую декомпозицию ВГК сверху-вниз.
  3. Выделяем семантически связанные группы.
  4. Накладываем на элементарные когнитивные объекты и семантически связанные группы те отношения (если они реализованы на данном вербально-графическом когнитивном объекте), которые мы выделили на этапе 1.

Приведем пример формализации когнитивного описания таблицы "Корреляция верхнемезозойских отложений северной и южной части п-ва Корея". Перечислим следующие типы связей (имена предикатов):

"принимает значение",

"состоит из",

"входит в",

"соотносится с",

"находится выше",

"находится ниже",

"сменять без признаков несогласия",

"несогласно перекрывать",

"иметь разрез",

"включать",

"относиться к",

"стратиграфический интервал".

Основными видами предикатов являются предикаты временной и пространственной локализации. Задаем формат предикатов, например:

"состоит из" – CONS как имя отношения (что, из чего), CONS(Период, Палеоген, Мел, Юра);

"принимать значения" – VAL, VAL(Палеоген, 60-65 млн. лет);

"входит в" – INC как имя отношения (что, во что), INC (формация Чиндон, группа Хайян);

"соотносится с" – CORR как имя отношения (что, с чем, параметр значения), CORR(Свита Пакчон, альб-готерив, 103-135 млн. лет).

В дальнейшем выделенные предикатно-актантные структуры предполагается ввести в естественно-языковую среду обработки знаний ДИЕС и с ее помощью создать макет когнитивно-лингвистической базы знаний для предметной области "Науки о Земле".

 

 

6. Заключение

 

Перечислим основные результаты исследования:

  1. Методы и подходы, использованные в процессе исследования, основаны на принципе проекции лингвистических методов моделирования текста на вербально-графические компоненты полнотекстового научного документа.
  2. Анализ подрисуночных подписей показал, что в их составе встречаются термины с высоким уровнем абстракции.
  3. В науках о Земле имеется ряд концептов, которые в документах традиционно представляются вербально-графически в виде таблиц.
  4. Составлен пример когнитивного описания таблицы на основе ее вербального описания и схемы иерархической декомпозиции.
  5. Когнитивное описание таблицы переводится в формализованное описание на базе аппарата расширенных семантических сетей.
  6. Формализованное описание таблицы является составной частью логико-семантической модели полнотекстовых научных документов.

 

 

Список литературы

 

  1. Рождественский Ю.В. Теория языка и проблема существования языка. В кн.: Семиотика и восточные языки.- М.: Наука, 1967.
  2. Lemke J.L. Multiplying Meaning: Visual and Verbal Semiotics in Scientific Text // J.R. Martin and R. Veel (Eds.) Reading Science. Critical and functional perspectives on discourses of science.- London: Routledge.- 1998.- P. 87-113.
  3. Lohse G.L., Biolsi K., Walker N., and Ruelev H.H. A Classification of Visual Representations // Communications of the ACM.- 1994.- Vol. 37, No 12.- P. 36-49.
  4. Курчавова О.А. Таблицы как вербально-графические компоненты полнотекстовых научных документов // Труды международного семинара "Диалог -2001" по компьютерной лингвистике и ее приложениям. Т. 2.- Аксаково, 2001.- С. 244-253.
  5. Lee K.H, Choy Y.C., and Sho S.B. Geometric Structure Analysis of Document Images: A Knowledge Based Approach // IEEE Transactions on Pattern Analysis and Machine Intelligence.- 2000.- Vol. 22, No 11.- P. 1224-1239.
  6. Blackwell A.F., Engelhardt Yu. A Meta-Taxonomy for Diagram Research // P. Oliver, M. Anderson, and B. Meyer (Eds.) Diagrammatic Representation and Reasoning.- Springer-Verlag.- 2002.
  7. Словарь иностранных слов.- 7-е изд., перераб.- М.: Русский язык, 1980.
  8. Зацман И.М. Логико-семантические модели полнотекстовых научных документов // Научно-техническая информация. Сер. 2.– 1999.- № 5.- С. 13-22.
  9. The W3C's Web Accessibility Initiative Glossary (http://www.w3.org/WAI/GL/2000/12/unified-glossary).
  10. Козеренко Е.Б. Когнитивно-лингвистическое моделирование полнотекстовых научных документов // Труды международной конференции "Искусственный интеллект 3'2000".- Донецк, 2000.
  11. Eco U. A Theory of Semiotics.-Indiana University Press, Bloomington.- 1976.- 356p.
  12. Miller T. Visual Persuasion: A Comparison of Visuals in Academic Texts and the Popular Press // English for Specific Purposes.- 1998.- Vol. 17, No 1.- 29-46.
  13. Зацман И.М., Лютый А.А. Семиосфера Электронного Образа Земли и знаковое представление геотекстов // Системы и средства информатики. N 11.- М.: Наука.- 2001.
  14. Гаврилова Т.А., Лещева И.А., Лещев Д.В. Использование онтологии в качестве дидактического средства // Труды международной конференции "Искусственный интеллект 3'2000".-Донецк.- 2000.
  15. Shariff A., Rashid B.M., Egenhofer M.J., and Mark D.M. Natural-Language Spatial Relations Between Linear and Areal Objects: The Topology and Metric of English-language Terms // International Journal of Geographical Information Science.- 1998.- Vol. 12, No 3.- P. 215-246.
  16. Кобозева И.М. Как мы описываем пространство, которое видим: форма объектов // Труды международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. Т. 1.- Протвино.- 2000.- С. 155-161.
  17. Большая Советская Энциклопедия.- М.- 1976.
  18. Кузнецов И.П. Семантические представления.-М.: Наука.- 1986.
  19. Филатова Н.И., Чанг К.Х., Парк С.О. Корреляция верхнемезозойских осадочных и вулканических образований Кореи и обстановки их накопления // Стратиграфия. Геологическая корреляция.- 1999.- Т. 7, № 4.- С. 64.

 

 

Tables as a versal-visual form of representing scientific knowledge

Olga A. Kourtchavova

 

 

Keywords: full-text scientific documents, verbal-visual formations, formal description of tables

 

The paper deals with the problem of simulation of joint verbal-visual thematic formations referred to as tables. Tables are one of the types of visual representations with generic feature being perpendicular vertical and horizontal line segments forming cells. Verbal and graphic concepts are studied. It is shown that within a subject area there is a number of concepts that are traditionally represented as tables. The correlation between the verbal description of tables and their topology is studied. Nomination and predication means are analyzed. An example of cognitive and formal description of tables is given.

 

[1]) Работа выполнена в рамках проекта РФФИ 00-06-80069