Сборник 2001

НЕКОТОРЫЕ ВОПРОСЫ ПОПОЛНЕНИЯ МОРФОЛОГИЧЕСКОГО СЛОВАРЯ ТЕРМИНАМИ ПРЕДМЕТНОЙ ОБЛАСТИ [1]

 

Е.А.Каневский

Санкт-Петербургский экономико-математический институт РАН

 

  1. Постановка задачи

Проблема обработки естественно-языковых текстов, "понимания" текста компьютером была и остается актуальной. Среди множества задач, которые сводятся к решению данной проблемы, можно назвать такие, как общение с компьютером на естественном языке, информационный поиск, извлечение содержательной информации из текстов и пополнение баз знаний.

В процессе создания базы знаний наиболее трудоемкой является процедура пополнения ее новой информацией, извлекаемой из специальных естественно-языковых текстов: деловых, научных, технических, медицинских, юридических и т. п. Очевидно, что при этом, в первую очередь, соответствующими терминами должны быть пополнены морфологический и семантический словари, на основе которых и выполняется анализ текстов. Рассмотрим ряд вопросов, связанных с пополнением морфологического словаря, поскольку вопросы организации и пополнения семантического словаря находится вне рамок настоящей статьи.

Задача пополнения морфологического словаря терминами предметной области является самостоятельной задачей и требует, прежде всего, разработки соответствующей методики. Морфологический анализатор, разработанный по алгоритмам В.А.Ту­зо­ва, в процессе функционирования использует 17 рабочих словарей, в число которых входят основной словарь, два словаря основ и словари окончаний [1, 2]. Словари окончаний делятся на две группы. К первой группе относится словарь окончаний лексем, в котором хранятся наборы окончаний лексем из основного словаря и двух словарей основ. Обращение к этому файлу осуществляется по адресу, указанному в словарной статье. Вначале выбирается один байт, в котором хранится размер данного набора окончаний, а затем – сам набор.

Вторую группу составляют словари возможных окончаний слов, предназначенные для поиска лексемы произвольно задаваемого слова. Эти словари представляют собой обычные текстовые файлы, в которых окончания отделены друг от друга каким-либо разделителем, например, пробелом, а разделители строк отсутствуют. В словарях содержится информация о возможных окончаниях, получаемых при склонении или спряжении основ. В отличие от словаря окончаний лексем, где каждому слову сопоставляется присущий ему набор различных окончаний, в словарях второй группы содержится абстрактный набор окончаний, не принадлежащий в полной совокупности какому-либо отдельно взятому слову.

Все эти словари автоматически строятся по исходному словарю, что дает возможность легкой его модификации. Исходным словарем является грамматический словарь А.А.Зализняка [3]. Объем словаря – около ста тысяч слов. Общее количество словоформ, которые способен анализировать морфологический анализатор, – более двух миллионов.

В общем случае задача морфологического анализа распадается на две подзадачи: прямую и обратную. В данном случае прямой задачей является генерация по исходной форме слова (единственное число, именительный падеж – для склоняемых частей речи, инфинитив – для глаголов) всей парадигмы этого слова. Для решения этой задачи достаточно двух словарей: основного словаря и словаря окончания лексем. Обратная задача – по произвольной форме слова восстановить его основную форму. Эта задача значительно сложнее предыдущей, но, в конечном счете, сводится к ней. Произвольная форма слова может сильно отличаться от своей исходной формы (ШЕЛ – ИДТИ), поэтому основная проблема при решении обратной задачи – поиск исходной формы в словаре. Для ее решения используются все 17 словарей.

Возможны два подхода к организации словарей, обеспечивающих их пополнение. Первый подход заключается в использовании дополнительных словарей пользователя, что позволяет хранить информацию в основных словарях в неизменяемом упакованном формате. Второй подход требует хранения всей информации в виде, допускающем коррекцию, пополнение и удаление словарных статей. Особенности представления информации при таком подходе достаточно подробно рассмотрены в [4].

 

  1. Методика пополнение словаря

Естественно, что любое новое слово, отсутствующее в морфологическом словаре, тем или иным образом должно пополнить его. Для этого каждому новому слову (его лексеме) следует приписать такие морфологические характеристики, которые позволят в дальнейшем осуществлять разбор любой его словоформы по тем же правилам, по которым работает морфологический анализатор. Вообще говоря, возможен и другой вариант: если новые слова будут храниться в отдельном словаре, а не пополнять уже имеющийся морфологический словарь, то можно хранить, например, все словоформы для каждой новой лексемы. В этом случае морфологический разбор осуществляется по сравнительно простым правилам, а морфологические характеристики для каждой словоформы минимальны.

Однако в обоих случаях для пользователя весьма желательно наличие подсказки, а именно, варианта набора всех словоформ данной лексемы. Как отмечается в [5], наиболее приемлемой в данном случае является почти полностью автоматизированная процедура склонения и спряжения, реализованная в виде диалога с пользователем. Считается, что достаточно ограничиться четырьмя знаменательными частями речи: существительными, прилагательными, глаголами и наречиями.

Одним из возможных подходов к решению данной задачи является метод подбора окончаний. Суть его заключается в следующем: за основу берется существующий (основной) морфологический словарь. Если для анализируемой лексемы подобрать из словаря такое слово, окончание которого совпадает с окончанием этой лексемы по максимально возможному количеству букв, то очень велика вероятность того, что лексема изменяется так же, как и найденное слово.

Разберемся, прежде всего, с именами существительными. Основной морфологический словарь В.А.Тузова, включает в себя около 97400 слов, в том числе имен существительных мужского рода – 21500, женского рода – 18000 и среднего – 6400. Как описано в [1, 2], каждая статья этого словаря содержит соответствующую лексему русского языка, ее морфологический описатель и адрес в файле окончаний лексем. Так статья "АНАЛИТИК" имеет следующий вид:

АНАЛИТИК м3о 214

где "м3о" (морфологический описатель) обозначает существительное мужского рода, третьего класса, одушевленное, а число "214" – адрес соответствующих этой лексеме падежных окончаний в файле окончаний лексем.

Очевидно, что в словаре имеется множество слов с совершенно одинаковыми окончаниями и морфологическими описателями, так что следовало бы осуществить их разумную редукцию. Для этого была использована следующая методика: все существительные были разделены на десять массивов (по родам и по признаку одушевленности). Отдельный массив составили прилагательные (глаголы и наречия на первом этапе не обрабатывались). Следует сразу отметить, что предварительно для удобства обработки словарных статей в начала каждой из них было помещено обратное отображение слова, после чего словарь был пересортирован по алфавиту. Все слова в каждом из массивов были разделены на группы так, что в каждой группе оказались слова, у которых совпадают три последние буквы окончания. Затем слова в каждой группе были разделены по морфологическому описателю и адресу окончания. Ниже приведен пример такой группы, у всех статей которой совпадает как морфологический описатель, так и адрес падежных окончаний:

АКЖУЛС СЛУЖКА м3о 1077

АКЖУРД ДРУЖКА м3о 1077

АКЖЫРЯ ЯРЫЖКА м3о 1077

АКЖЯНТРОП ПОРТНЯЖКА м3о 1077

Очевидно, что из такой группы достаточно выбрать только одну статью, что и осуществлялось путем визуального отбора. При этом обращалось особое внимание на само слово, оставляемое в словаре: оно должно было быть достаточно простым и употребительным. Из приведенного выше набора слов, на наш взгляд, самым простым является слово ЯРЫЖКА.

Рассмотрим другую группу, у статей которой не совпадает ни морфологический описатель, ни адреса падежных окончаний:

АЖДАР РАДЖА м4о|2 13408

АЖДАРАГАМ МАГАРАДЖА м4о|2 13408

– – – – – – – – – –– – – – –– – – – –– – – – –

АЖДОХ ХОДЖА м4о 250

Статьи этой группы разделены на две подгруппы так, что в каждой из них совпадает как морфологический описатель, так и адрес падежных окончаний. Выбираем из первой подгруппы слово РАДЖА, а из второй  – ХОДЖА. При таком подходе в каждом массиве будут отобраны слова с несовпадающими морфологическими описателями и адресами падежных окончаний.

В результате применения такой методики удалось сократить массивы существительных и прилагательных в соответствии со следующей таблицей:

Тип массива

Всего слов

Отобрано слов

Сокращено в … раз

Сущ. муж. од.

8456

1933

4.4

Сущ. муж. неод.

13041

4893

2.7

Сущ. жен. од.

3274

312

10.5

Сущ. жен. неод.

14726

1738

8.5

Сущ. ср. од.

54

30

1.8

Сущ. ср. неод.

6332

1075

5.9

Сущ. м-ж. од.

416

147

2.8

Сущ. м-ж. неод.

23

13

1.8

Сущ. м-с. од.

22

22

Сущ. ж.-с. од.

2

2

Прилагат.

20878

2547

8.2

 

Таким образом, нами был получен набор массивов в виде текстовых файлов, пользуясь которыми можно пополнять морфологический словарь.

 

  1. Технология пополнение словаря

Система пополнения морфологического словаря, реализующая рассмотренную выше методику, достаточно проста. Пользователю предлагается три окна и набор кнопок. Вручную или из заранее подготовленного файла новое слово вводится в первое окно. Выбором соответствующих кнопок задается принадлежность введенного слова к прилагательным или существительным, в последнем случае задается также род и тип одушевленности.

Программа осуществляет получение обратного отображения заданного слова и поиск статьи из соответствующего файла, в которой имеет место совпадение заданного слова с первым словом соответствующей статьи этого словаря по максимальному количеству букв, начиная с трех. В случае если необходимое трехбуквенное сочетание вообще отсутствует в файле, ищется двухбуквенное сочетание или одна буква. После нахождения подходящей статьи, введенное слово, морфологический описатель и адрес падежных окончаний отобранной лексемы передаются в морфологический анализатор. Последний по исходной форме введенного слова (единственное число, именительный падеж – для склоняемых частей речи) выполняет генерацию всей его парадигмы. Для решения этой задачи достаточно словаря окончания лексем. Результат генерации выводится во второе окно по числам и падежам для имен существительных и по падежам для мужского и женского родов и множественного числа для прилагательных.

Если пользователя не устраивает предлагаемый ему вариант изменения введенного слова, то он может выбрать для образца какое-нибудь другое слово. Набор таких слов предлагается в третьем окне. При необходимости возможна процедура отката к совпадению по двум или даже одной букве. После осуществления выбора введенному слову приписываются морфологический описатель и адрес падежных окончаний отобранной лексемы.

Предварительные испытания системы показали вполне удовлетворительные результаты, однако, выявились два момента. Во-первых, очень многие русские фамилии, особенно такие, которые оканчиваются на –ов, -ев, -ин, склоняются по типу слова ТОПТЫГИН, так что целесообразно для ускорения обработки таких фамилий ввести особую кнопку. Во-вторых, в исходном словаре Зализняка [3] вообще не оказалось ни одного слова, которое бы склонялось по типу фамилий СИДОРОВА, ИВАНОВА и т. п., так что пришлось в основной словарь добавить статью

ИВАНОВА ж11о 27937

и также ввести на нее особую кнопку для обработки подобных фамилий.

 

  1. Заключение

Полная проверка системы пополнения морфологического словаря проводится в настоящее время на корпусе текстов, взятых из текущей периодики, интернетовских сообщений и других средств массовой информации. Из этих текстов выделено около 16000 слов, которые должны пополнить словарь терминами, относящимися к наиболее актуальным интересам общества. Из них около 2000 слов начинаются на буквы “И–Л”. Они имеют следующий состав:

– около 865 существительных, обозначающих имя, отчество или фамилию;

– 280 слов (в основном, существительных), обозначающих  географические названия;

– 360 прилагательных, образованных, в основном, от существительных, обозначающих географические понятия;

– 240 слов (в основном, существительных), обозначающих названия предприятий, компаний, газет, банков и других организаций.

Остальные слова, в основном, являются существительными и представляют собой ряд специальных терминов в различных областях человеческой деятельности (банки, промышленность, политика, информация и др.). Имеется небольшое количество глаголов и отглагольных форм, еще меньше прилагательных, наречия практически отсутствуют. Некоторые из этих слов являются претендентами на пополнение основного морфологического словаря. Следует отметить значительное количество дефисно-аппозитивных слов, отсутствующих в довольно большом их списке, приведенном в [7]. Ряд таких слов приведен ниже:

ИНЖЕНЕР-ГЕОФИЗИК                              КОМПАНИЯ-ПОСТАВЩИК

ИНЖЕНЕР-МЕХАНИК                              КОМПАНИЯ-РАЗРАБОТЧИК

ИНЖЕНЕР-СТРОИТЕЛЬ                              КОМПАНИЯ-СОВЛАДЕЛЕЦ

ИНЖЕНЕР-ТЕХНОЛОГ                              КОМПАНИЯ-УЧАСТНИК

ИНЖЕНЕР-ФИЗИК                              КОМПАНИЯ-УЧРЕДИТЕЛЬ

ИНЖЕНЕР-ЭКОНОМИСТ                              КОМПАНИЯ-ЧЛЕН

ИНЖЕНЕР-ЭЛЕКТРИК                              КОМПАНИЯ-ЭКСПОРТЕР

ИНЖЕНЕР-ЖЕЛЕЗНОДОРОЖНИК                              КОНГРЕССМЕН-ДЕМОКРАТ

КАМБАЛА-КАЛКАН                               КОНГРЕССМЕН-РЕСПУБЛИКАНЕЦ

КАМЕНЬ-РАКУШЕЧНИК                              КОНКИСТАДОР-ЗАВОЕВАТЕЛЬ

КАНДИДАТ-ОДНОМАНДАТНИК                              КОНТРАГЕНТ-ЗАДОЛЖНИК

КОМПАНИЯ-АКЦИОНЕР                              КОРАБЛЬ-ПРИЗРАК

КОМПАНИЯ-ИНВЕСТОР                              ЛЕТЧИК-ДАЛЬНИК

КОМПАНИЯ-ОПЕРАТОР                              ЛЕТЧИК-ПИЛОТАЖНИК

КОМПАНИЯ-ПЕРЕВОЗЧИК

 

Литература

  1. Тузов В.А. Морфологический анализатор русского языка //Вестник СПбГУ, сер. 1. 1996. Вып. 1 (N15). С. 41–45.
  2. Каневский Е.А., Колпакова Н.В. К вопросу построения морфологического анализатора //Труды Международного семинара Диалог'99 по компьютерной лингвистике и ее приложениям. Москва: РосНИИ Искусственного Интеллекта, 1999. Т.2. С. 98–106.
  3. Зализняк А.А. Грамматический словарь русского языка. М.: Русский язык, 1987. 890 c.
  4. Поминов А. Некоторые вопросы организации пополняемых автоматических словарей //Труды Международного семинара Диалог'97 по компьютерной лингвистике и ее приложениям. Москва: РосНИИ Искусственного Интеллекта, 1997. С. 233–237.
  5. Светова С.Ю. Опыт создания средств редактирования словаря пользователя системы машинного перевода семейства ПРОМТ //Труды Международного семинара Диалог'99 по компьютерной лингвистике и ее приложениям. Москва: РосНИИ Искусственного Интеллекта, 1999. Т.2. С. 98–106.
  6. Сегалович И., Маслов М. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре слов //Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Казань: ООО "Хэтер", 1998. Т.2. С. 547–552.
  7. Федорова О.В. Мой диван-кровать или моя диван-кровать? (Дефисно-аппозитивные словокомплексы в русском языке //Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Казань: ООО "Хэтер", 1998. Т.2. С. 610–618.

 

[1] Работа выполнена при поддержке РФФИ, проект № 00-01-00443.