Proceedings 2002

Contents

О ПРИНЦИПАХ ПОСТРОЕНИЯ КОМПЬЮТЕРНОГО СЛОВАРЯ ОБЩЕНАУЧНОЙ ЛЕКСИКИ

 

 

Е. И. Большакова

МГУ им. М.В.Ломоносова, Факультет  ВМиК

bolsh@cs.msu.su

 

 

Ключевые слова:  научно-техническая проза,  общенаучная лексика,  словарь общенаучных выражений, компьютерный словарь-справочник

 

Кроме специальных терминов, язык научно-технической прозы включает также разнообразные слова и устойчивые словосочетания общенаучного характера (анализировать данные, резюмируя сказанное и т.п.), организующие научный дискурс. В работе обсуждаются вопросы построения компьютерного словаря, объединяющего различные виды типичных выражений общенаучной речи и пригодного для использования как в режиме справочника, так и в составе системы автоматической обработки текста. Указываются критерии отбора лексических единиц в разрабатываемый словарь, предлагается классификация собранной коллекции русских и английских общенаучных слов и словосочетаний. Кратко описываются функциональные возможности и структура словаря, а также некоторые черты пользовательского интерфейса.

 

 

  1. Постановка задачи

 

Одной из отличительных особенностей научно-технической прозы является употребление в ней специализированной терминологии, а также разнообразных слов и устойчивых словосочетаний общенаучного характера, используемых как формулы научного стиля [4, 8]. К числу таких выражений относятся именные и глагольно-именные словосочетания (сравнительное исследование, опровергнуть гипотезу), предложно-именные сочетания (в общих чертах), причастные и деепричастные обороты (упомянутый выше, резюмируя сказанное), составные предлоги и союзы (в случае, благодаря тому, что). Встречаются общенаучные выражения в текстах из различных научно-технических областей, разных жанров: в статьях, монографиях, технических отчетах, информационных обзорах, учебных пособиях, справочниках и т.п. Их употребление не является специфической чертой научных текстов на русском языке, аналогичные словесные формулы используются и в других языках.

Основные различия терминологии и общенаучной лексики связаны с функциями, выполняемыми ими в дискурсе. Если термины предназначены для именования конкретных понятий, объектов и процессов предметной области, то общенаучные слова и выражения служат структурно-смысловой организации научного текста – оформлению и упорядочению рассуждений,  связыванию отдельных текстовых фрагментов.

Такие организующие дискурс слова и выражения, называемые часто дискурсивными словами (реже - словами-скрепами), используются в текстах разных стилей и давно привлекали к себе внимание. Изучались отдельные виды таких слов и словосочетаний [7, 3], отмечался неоднократно их метатекстовый характер. Однако нам неизвестны работы, в которых проведена исчерпывающая инвентаризация общенаучных словесных формул и исследовался системный характер организующих слов и словосочетаний именно в рамках функционального стиля научной речи.

Ясно, что выражения общенаучной речи образуют свою систему, они функционируют в научном тексте совместно, усиливая связность текста и его стилевую однородность. Отметим здесь только несколько особенностей этой системы. В общенаучной речи чаще используются особые виды перформативных формул (таких как далее мы докажем), которые включают широкий круг ментальных перформативных глаголов [6]. Ряд абстрактных существительных, играющих важную роль в структурно-семантическом упорядочении научной информации и удачно названных в работе [7] общенаучными переменными(проблема, аргумент, гипотеза, исследование и др.) употребляются в научных текстах обычно в составе устойчивых словосочетаний.

Таким образом, актуальной является задача разработки достаточно полного словаря общенаучной лексики, без которого невозможен сколь-нибудь глубокий автоматический анализ и синтез научного-технического текста. Важно, что, в отличие от множжества терминов, словарь общенаучных выражений-формул

  • сравнительно немногочисленен (несколько сотен ядерных слов и словосочетаний против тысяч единиц терминологических словарей);
  • не зависит от конкретной научной области, охватывая общеупотребительные слова естественного языка (тем самым он инвариантен в научном языке);
  • если и изменяется с развитием науки и техники, то очень медленно (скорее, эти изменения связаны с изменением всей языковой системы).

Приступив более года назад к разработке компьютерного словаря русской и английской общенаучной лексики, мы ориентировались на  две прикладные цели:

  1. Обучение научному и техническому литераторству, включающее изучение словесных формул общенаучной речи (если важность их изучения не столь очевидна в случае родного языка, то для иностранного языка положение иное);
  2. Автоматизация обработки научно-технического текста, включающая задачи литературно-научного редактирования [2], структуризации и извлечения текстовых знаний [7], научного реферирования.

Итак, была поставлена задача разработки электронного словаря, пригодного для использования как в режиме справочника, так и в составе некоторой системы автоматической обработки текста. Для ее выполнения требовался отбор и классификация формул-выражений общенаучной речи, так как предложенные ранее (например, в [7]) номенклатуры дискурсивных слов не охватывают всех видов общенаучных выражений  и неадекватны обозначенным выше прикладным целям.

 

 

2. Классификация слов и словосочетаний общенаучной речи

 

Коллекция русских и английских общенаучных выражений для разрабатываемого компьютерного словаря была собрана из нескольких текстовых словарей, в том числе [9-11], а также на основе проведенного вручную анализа текстов по информатике, искусственному интеллекту и компьютерной лингвистике. Поскольку вряд ли можно хранить в словаре все возможные общенаучные выражения, при отборе некоторого выражения в коллекцию мы руководствовались следующими критериями. Во-первых, должна быть ясной организующая функция отбираемого выражения; во-вторых, оно должно встречаться достаточно часто в научных текстах разных областей; в-третьих, оно должно быть ядерным (т.е. в некотором смысле минимальным по составу).

Отобранные в коллекцию общенаучные слова и словосочетания выражают довольно разнообразные функционально-семантические значения, и в тоже время они разнородны по своему составу, грамматической форме, синтаксическим свойствам. В частности, выражения могут быть разрывными (проводить аналогию) или неразрывными (в действительности), могут быть фразеологическими (подвергнуть анализу) или свободными (нетрудно заметить) словосочетаниями.

Поскольку для обучающего словаря-справочника желательна не просто номенклатура словесных формул, а их содержательная и достаточно детальная классификация, то основополагающим классифицирующим принципом был функционально-семантический. Согласно нему, выражения должны собираться в классы исключительно по их смыслу и роли в тексте, без учета их грамматической формы, валентной структуры и синтаксических характеристик. В идеале, конечные классы иерархии должны представлять группы эквивалентности (или квазиэквивалентности).

Классификация русской и английской коллекций проводилась относительно независимо, но в итоге обе они оказались разбиты практически одинаково – на 32 смысловые группы. Каждая группа либо является классом синонимичных (эквивалентных) выражений, либо включает несколько подгрупп эквивалентности. Группы выражений были объединены в 5 основных разрядов. Тем самым, результирующая функционально-семантическая система оказалась универсальной для обоих языков. Ниже мы перечисляем разряды и группы, называя их общую функцию в научном дискурсе и приводя примеры выражений из русского языка.

  1. Задание композиционной структуры текста – группы перехода к другой теме (перейдем к), присоединения информации (в дополнение к), упорядочения и нумерации (в первую очередь), объявления действия (ниже опишем).
  2. Установление определенных логических связей между единицами текста – группы  резюмирования (суммируя все это), причинной (по этой причине), следственной (так что), условной (в силу доказанного) и противительной (однако) связей.
  3. Указание способа рассмотрения и источника информации – группы уточнения (в частности), источника информации (по мнению), иллюстрирования (к примеру), цитирования (как пишет автор), противопоставления (с одной стороны), сравнения и установления эквивалентности (то есть).
  4. Выражение авторской оценки информации – группы подчеркивания важности и интересности (особо подчеркнем), модальных и вероятностных слов (возможно, вряд ли), рациональной (целесообразно считать),  эмоциональной (к сожалению), негативной  и положительной оценки (успехом представляется).
  5. Употребление общенаучных переменных – группы результата (вывод, следствие), цели (проблема, вопрос), ментальных конструктов (идея, понятие), ментальных средств (процедура, исследование), результатов абстракции (модель, теория).

Отметим, что строгой классификации достичь не удалось, так как некоторые выражения из-за их неоднозначной семантики были отнесены одновременно к двум разным группам или подгруппам. 

В общем случае каждая группа эквивалентности содержит несколько синонимичных выражений разной грамматической природы, к примеру, группа следственной связи включает слова и словосочетаниязначит, итак, таким образом, тем самым, как видим и др. В группах встречаются перформативные высказывания нескольких видов: канонические (мы покажем), “установочные” (необходимо/нетрудно заметить), деепричастные (резюмируя вышесказанное), дескриптивные (как мы уже отмечали).

К последнему, пятому разряду выражений отнесены все устойчивые словосочетания, образованные с существительными, употребляемыми как общенаучные переменные. Как правило, эти словосочетания – именные или глагольно-именные (сильный аргумент, привести аргумент), причем в глагольно-именных сочетаниях часто фигурируют ментальные перформативные глаголы. Заметим, что значения таких глаголов могут быть описаны как лексические функции от исходных существительных (построить доказательство, извлечь следствия).

 

 

3. Структура и функциональные возможности словаря

 

 Требовалось, чтобы разрабатываемый словарь общенаучных слов и выражений был доступен как справочное средство пользователю-человеку, и в то же время обеспечивал допуск к хранимым лингвистическим данным со стороны внешней программы обработки текстов. Такая особенность сближает его с универсальными электронными словарями, актуальность и принципы организации которых подробно обсуждены в работе [1]. Общие требования к универсальным словарям включают полноту представления в словаре лингвистической информации, и широкое разнообразие способов доступа к этой информации. Эти требования были учтены при определении структуры нашего словаря и организации поддерживающей его программной системы.

Единицей словаря является отдельное слово или устойчивое словосочетание общенаучного лексикона. Словарная статья объединяет связанную со словом или словосочетанием семантическую, синтаксическую и морфологическую информацию, представленную в специальном внутреннем формате. Эта информация включает:

  • указание функционально-семантической группы/подгруппы, в которую входит данное выражение (слово или словосочетание);
  • описание семантических валентностей выражения (если они имеются);
  • морфологические классификационные пометы всего словосочетания и входящих в словосочетание слов;
  • синтаксические характеристики выражения: разрывность/неразрывность, возможная синтаксической роль в тексте (вводное слово, определение и пр.),
  • указание входящего в формулу перформативного глагола (если таковой имеется),
  • отсылки на семантически связанные выражения из других функциональных групп;
  • перевод на другой язык (русский/английский) - ссылка-указание эквивалентного выражения и/или всей соответствующей группы/подгруппы эквивалентности;
  • примеры использования выражения (в предложении или сверхфразовом единстве).

Ядро программной системы, поддерживающей словарь общенаучной лексики, строится как набор (библиотека) процедур, обеспечивающих разнообразные поисковые услуги для нужд текстовой обработки. Кроме простого доступа к единицам словаря и компонентам их словарных статей предусмотрен поиск для русского выражения соответствующего английского эквивалента или наоборот, а также поиск выражения по его начальному фрагменту (слову или части слова) или по входящему в его состав заданному слову. Заметим, что поскольку формы слов, входящих в выражения словаря и задаваемых при поиске, могут различаться, то для реализации последнего вида поиска при необходимости используются процедуры нормализации слов.

Указанная библиотека процедур может рассматриваться как основа для организации прикладного интерфейса (API) словаря с внешними программными средствами. Пользовательский же интерфейс (для эксплуатации словаря человеком) обеспечивает специальная программная оболочка, реализуемая на базе библиотечных процедур.

Эта оболочка создается как небольшая справочно-обучающая система с несколькими видами поиска и навигации по словарю. Кроме просмотра отдельных единиц словаря (например, в алфавитном порядке) и поиска нужных выражений по входящим в них  словам (или другим характеристикам) пользователь имеет возможность просматривать как саму коллекцию общенаучных выражений, так и соответствующую пояснительную информацию, представленную  в виде гипертекста.

В основу гипертекста положена охарактеризованная выше функционально-семантическая классификация общенаучных слов и словосочетаний. Гипертекстовые связи отображают иерархическую структуру этой классификации, с ее делением на разряды, группы и подгруппы. Гипертекст фиксирует также связи между семантически близкими выражениями, попавшими в разные группы. Одни страницы гипертекста содержат объяснительную информацию, другие же презентуют или целиком группу эквивалентных формул-выражений или же связанную с конкретным выражением информацию из словарной статьи.

Важно, что пользователь может сочетать запросы на поиск словарной информации со свободной навигацией по обучающему гипертексту. Например, в ходе просмотра выражений из группы условной связи возможен запрос по конкретной общенаучной переменной, в результате которого будут найдены и выведены все сочетающиеся с ней прилагательные или глаголы.

В заключение отметим несколько направлений развития реализуемого в настоящий момент словаря. Во-первых, в дальнейшем планируется расширить номенклатуру выражений общенаучной речи, учтя словесные формулы и клише специфических жанров научно-технической прозы, например, рецензии [5]. Во-вторых, предполагается исследовать возможность синтезировать различные общенаучные выражения, явно пока не представленные в словаре, но являющиеся комбинациями хранимых в словаре ядерных слов и словосочетаний.

 

Литература

 

  1. Большаков И. А., Гельбух А. Ф., Галисия-Аро С. Н. Электронные словари: для человека и компьютера // Международный Форум по Информации. 1999, Т. 24, No. 3. с.17-22.
  2. Большакова Е.И., Васильева Н.Э. К вопросу об автоматизации литературно-научного редактирования // Труды Международного Семинара Диалог ‘2000 по Компьютерной лингвистике и ее приложениям. Протвино, 2000. Том 2. с.59-63.
  3. Голубева А.И. Скрепы как особый вид связочных средств и их функционирование в научном тексте // Научная литература. Язык, стиль, жанры. М.: Наука, 1985. с.272-280.
  4. Митрофанова О.Д. Язык научно-технической литературы. М.: Изд-во МГУ, 1973. 147 с.
  5. Николаев A.M. Языковые особенности и статистическая характеристика речевых актов, реализуемых в тексте рецензии на научно-техническую работу // НТИ. Сер. 2. 1998, № 6. с.28-34.
  6. Рябцева Н.К. Ментальные перформативы в научном дискурсе // Вопросы языкознания. 1992, № 4. с. 12-28.
  7. Севбо И.П. Сквозной анализ как шаг к структурированию текста // НТИ. Сер. 2. 1989, № 2. с.2-9.
  8. Сенкевич М.П. Стилистика научной речи и литературное редактирование научных

произведений. М.: Высшая школа, 1976. 264 с.

  1. Словарь глагольно-именных словосочетаний общенаучной речи. М., Наука, 1973.
  2. Словарь словосочетаний, наиболее употребительных в английской научной литературе. М., Наука, 1968.
  3. Частотный словарь общенаучной лексики / Под ред. Е.М. Степановой. М., Издательство МГУ, 1970.

 

Designing principles for a computer dictionary of common scientific lexicon

Elena I. Bolshakova

 

Keywords: scientific and technical prose, common scientific lexicon, dictionary of common scientific expressions, computer dictionary

 

Besides terms of a particular terminology, the language of scientific and technical prose comprises common scientific words and stable word combinations (such as to analyze data, summing up, for this reason, so far as), which are devices for organizing scientific discourse. The paper discusses some issues of development of a computer dictionary that stores various kinds of typical expressions of common scientific lexicon and is applicable both for learning the lexicon by human user and for exploiting within automatic text processing system. Criteria of selection of common scientific expressions for the computer dictionary are pointed out, and a classification of the collections of Russian and English words and word combinations gathered from text dictionaries and scientific texts is proposed. Functions and structure of the computer dictionary being under development are briefly described, as well as some features of user interface.