Proceedings 2001

Back to articles

Выделение словарных терминологических словосочетаний в научно-технических текстах

Е.И. Большакова , Н.Э. Васильева , Д.А. Юдин

Введение

Терминами принято называть одиночные слова или словосочетания, именующие понятия и объекты некоторой специализированной области. Проблема автоматического выделения терминологических словосочетаний исследуется с точки зрения многочисленных приложений – создания терминологических словарей на основе корпусов текстов, автоматического индексирования текстов для систем ииформационного поиска, рубрикации текстов и их тематической структуризации, перевода текстов с одного языка на другой, извлечения знаний из текстовых источников. Характерным для разрабатываемых при этом программных средств выделения терминов является рассмотрение только номинативной терминологии и ограниченного числа синтаксических образцов именных терминов, использование поверхностного синтаксического анализа (как правило, без опоры на словарь проблемной области) вместе с учетом частоты встречаемости выделяемых единиц – см., например, [1,2].

В настоящей работе проблема автоматического выделения терминов рассматривается в рамках общей задачи создания специализированной системы литературно-научного редактирования научно-технических текстов, см. [3,7], где обсуждаются основополагающие черты такой системы. Особенностью предложенного подхода к автоматизации научного редактирования является учет основных черт научно-технической прозы, прежде всего, ее высокой стандартизированности, ограниченности ее словарного состава, насыщенности терминолической лексикой, как и фразеологическими словосочетаниями общенаучной речи, по большей части, глагольно-именными [6,8].

Как следствие, проблема выделения рассматривается нами более широко. Кроме выделения собственно терминов, имеющих проблемно-ориентированный характер, необходимо обнаружить в тексте терминологизированные словосочетания общенаучной лексики. Конечной целью выделения является не только проверка согласованности употребления терминов и выявление стилистических ошибок в использовании общенаучных слов, но и “свертка” выделенных многословных сочетаний в законченные единицы, что существенно сокращает многовариантность проводимого затем полного синтаксического разбора.

В силу изложенного, выделение разных устойчивых словосочетаний основано на нескольких разработанных для системы научного редактирования компьютерных словарей, вкупе отражающих специфику лексики научно-технической прозы. Для выделения словосочетаний применяется полный морфологический и частичный синтаксический анализ предложений текста. Ниже описываются словарные средства и процедуры, разработанные и используемые для выделения научных терминов и терминологизированных словосочетаний.

Словарные компоненты

При автоматическом выделении словосочетаний используется три словаря: терминологический, словарь сочетаний общенаучной речи и общий морфологический словарь, их связующий.

Морфологический словарь основ и неизменяемых слов покрывает все слова, встречающиеся в первых двух словарях. Кроме грамматической информации (части речи описываемого слова и его флективного класса) словарные статьи содержат отсылки к тем единицам других словарей, которые содержат в своем составе данное слово.

Терминологический словарь системы автоматизированного редактирования нучных текстов разработан для проблемной области «Информатика и вычислительная техника», в его основу легли несколько текстовых словарей, например, [4,5].

В компьютерном словаре представлены как одиночные существительные, так и номинативные словосочетания, в состав которых входят, кроме существительных и прилагательных, причастия, предлоги, наречия. Максимальная длина словосочетания – 10 слов, наиболее частотны термины из 2-3 слов, составленные по следующим двум синтаксическим образцам или их комбинации (динамическое распределение памяти, автомат с магазинной памятью):

{A}С – существительное, которому предшествует несколько слов-адъективов (т.е. прилагательных или причастий), согласующихся с ним в роде, числе и падеже (пакетная обработка);

С{С} – существительное с атрибутами в виде нескольких других существительных в косвенном падеже, как правило, родительном (отладка программы).

Компьютерный словарь общенаучной речи, основным текстовым источником которого был [9], включает как типично научные фразеологизмы (опровергнуть гипотезу, обработать данные), так и часть высокочастотных в научных тестах словосочетаний общего лексикона, как, например, решенная задача, значительный результат. Словарь разбивается на несколько частей, соответствующих разным типам атрибутивных и предикативных сочетаний:

Адъектив+ Существительное – для описания устойчиво сочетающихся с существительным прилагательных и причастий (поставленная проблема);
Существительное+ Существительное – для сочетаний двух существительных (основа анализа);
Глагол+ Существительное – для устойчивых сочетаний глагола и управляемого им существительного (сформулировать проблему);
Глагол+ Существительное + Существительное – для устойчивых трехчленных сочетаний глагола с управляемыми существительными (получить результат на основе).

Устойчивые глагольно-именные сочетания могут содержать частицу не (перед глаголом) и возвратное местоимение себя (представлять собой проблему), а также предлог перед существительным – соответствующая информация представлена в словаре, так же как и требуемый в словосочетании падеж управляемых существительных.

Заметим, что указанные типы двух и трехчленных словосочетаний соответствуют простым словосочетаниям, и на их базе могут быть получены разнообразные комбинированные сочетания вида получить на основе анализа значительный результат, известные как речевые клише научной прозы.

Выделение терминологических сочетаний

Особенностью устойчивых именных словосочетаний-терминов является их неразрывность, означающая, что большинство их вхождений в текст отличается от зафиксированных в словаре образцов лишь грамматическими окончаниями некоторых слов, составляющих словосочетание. Кроме таких простых вхождений терминов в тексте возможны, хотя и менее часты, сочинительные конструкции, полученные сокращением общего начала или конца нескольких терминов: ЭВМ второго, третьего и четвертого поколения, векторный или растровый дисплей (при наличии в словаре терминов ЭВМ второго поколения , ЭВМ третьего поколения и ЭВМ четвертого поколения, векторный дисплей и растровый дисплей).Такие сочинительные сокращения могут быть получены с помощью запятой и союзов (одиночных – и, или, либо, и двойных – или...или, и...и, не...а, как...так и), например: ЭВМ не второго, а третьего поколения.

Перед собственно выделением терминов каждое предложение текста разбивается на фрагменты по границам всех встреченных специальных знаков, которые не могут встретиться внутри самих терминов и их сочинительных сокращений (например, скобки) и, следовательно, не могут разрывать термины-словосочетания. Далее фрагменты рассматриваются независимо. Сначала делается попытка выделить простые вхождения терминов (максимальные по длине словосочетания, записанные в словаре). При этом производится поиск во фрагменте непустой и неразрывной цепочки слов, совпадающей со словарным словосочетанием, с точностью до согласованной замены окончаний слов. Выделение сочинительных сокращений производится при повторном просмотре фрагмента, при одновременном движении слева направо и слева направо, позволяющем выявить левые и правые сокращения.

Выделение общенаучных глагольно-именных сочетаний

Выделение глагольно-именных словосочетаний представляет собой более сложную задачу из-за возможной разрывности их в тексте, а также потенциальной перестановочности глагола и управляемого существительного, точнее – группы глагола, понимаемой как глагол и связанные с ним частицы и местоимения, и группы существительного, понимаемой как само это существительное и все связанные с ним адъективы. Кроме того, для одного глагола (многовалентного) в словаре могут быть зафиксированы два или даже три различных сочетающихся существительных (в разных падежах). Все соответствующие конструкции и отыскиваются в тексте. Для целей последующей обработки в системе редактирования, возможные в тексте комбинированные сочетания (т.е. комбинации нескольких единиц, представленных в словаре) должны быть выделены в виде одной структуры.

В общем случае выделение простого словарного или комбинированного словосочетания происходит в несколько просмотров предложения. Если существительное, входящее в состав какого-то словарного сочетания, встречается первым, то для него выделяются контактные с ним возможные адъективы и группа глагола, а затем – все остальные требуемые глаголом группы существительных. Если же первым встречается глагол, то сначала выделяется его группа, а затем – сочетающиеся с ним существительные и их группы подчинения. Предполагается, что хотя бы одна из подчиненных глаголу групп существительного располагается после глагольной группы.

В заключение укажем несколько направлений развития описанных словарных компонентов и процедур для автоматического выделения устойчивых словарных словосочетаний. Во-первых, в словарь общенаучных фразеологизмов предполагается включить наречия и наречные обороты. Во-вторых, предполагается учесть в процедурах выделения другие случаи разрывов терминологических сочетаний и инверсий в них (вида дисплеи бывают графические, для словарного термина графический дисплей), а также сочинительные конструкции на базе словарных глагольно-именных сочетаний (сформулировать и решить проблему). В-третьих, для повышения общей эффективности выделения различных словарных единиц, разработанные отдельные процедуры выделения терминов и общенаучных фразем предполагается объединить в одну процедуру.

Литература

Bourigault, D. (1992) Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases. Proceedings of COLING-92, Nantes, France, p. 977-981.
Smadja, F. (1993) Retrieving Collocations from Text: Xtract. Computational Linguistics, 19 (1), p. 143-177.
Большакова Е.И., Васильева Н.Э. К вопросу об автоматизации литературно-научного редактирования. // Труды Междунар. Семинара Диалог ‘2000 по Компьютерной лингвистике и ее приложениям. Протвино, 2000. Том 2, с.59-63.
Борковский А.Б., Зайчик Б.И., Боровикова Л.И. Словарь по программированию. М., Русский язык, 1991.
Ершов А.П., Шанский Н.М., Окунева А.П., Баско Н.В. Терминологический словарь по основам информатики и вычислительной техники. М., Просвещение, 1991.
Митрофанова О.Д. Язык научно-технической литературы. М., Изд-во МГУ,1973.
Мальковский М.Г., Большакова Е.И. Интеллектуальная система контроля качества научно-технического текста // Интеллектуальные системы, 1997, Т.2, Вып. 1-4.
Сенкевич М.П. Стилистика научной речи и литературное редактирование научных произведений. М., Высшая школа, 1976.
Словарь глагольно-именных словосочетаний общенаучной речи. М., Наука, 1973.