Алгоритм выявления устойчивых словосочетаний с учетом их вариативности (морфологической и комбинаторной)[1]

В.Д. Гусев, Н.В. Саломатина

Общепринятого определения «устойчивого словосочетания» не существует. В данной работе понятие устойчивости повторяющейся цепочки из  > 1 подряд следующих слов текста, не прерываемых знаками препинания, формулируется исходя из анализа лево- и правосторонних расширений всех ее вхождений в текст. Цепочка считается устойчивой, если число всевозможных ее расширений (как влево, так и вправо) достаточно велико, например, сопоставимо с частотой встречаемости самой цепочки. Иными словами, всевозможные ()–словные цепочки, включающие в себя исходную цепочку, должны иметь существенно меньшую частоту встречаемости в тексте по сравнению с этой цепочкой. Реализован алгоритм выявления цепочек, устойчивых в указанном смысле. Морфологическая вариативность учитывается путем предварительной нормализации словоформ текста. Эксперимент на художественных и научно-технических текстах подтвердил перспективность развиваемого подхода.

Следующий шаг был сделан в направлении учета комбинаторной вариативности выделенных словосочетаний. Последняя подразумевает возможность появления замен, вставок или устранений в отдельных позициях рассматриваемого словосочетания. Реализован алгоритм поиска «ближайшей окрестности» каждого словосочетания. Она включает в себя всевозможные цепочки текста, отличающиеся от исходного словосочетания однократной заменой, вставкой или устранением слова в любой позиции. Ближайшую окрестность можно трактовать как язык образца (шаблона), содержащего константные (консервативные) и переменные (варьируемые) позиции. Подобная форма представления близка к той, что реализована в словаре сочетаемости слов русского языка под редакцией П.Н. Денисова, В.В. Морковкина.

Введение

Задача создания всевозможных словарей словосочетаний является в настоящее время весьма актуальной [1], [2]. Такие словари необходимы прежде всего для обучения русскому языку иностранцев [3], для автоматизации перевода [4], разрешения лексической омонимии в алгоритмах автоматического анализа текстов [2], выявления паронимических ошибок [5] и т.д. Создание таких словарей – весьма трудоемкий процесс, требующий объединения усилий многих квалифицированных специалистов. Любая, даже частичная, автоматизация этого процесса представляет несомненный практический интерес. Описываемый в данной работе инструмент позволяет на основе анализа реальных текстов получать правдоподобные заготовки для словаря словосочетаний, снабженные полезной сопутствующей информацией, чем существенно облегчается последующая работа лингвиста.

Общепринятого определения понятия «устойчивое словосочетание» не существует. Некоторые авторы (см., например, [6]) приравнивают его к понятию «фразеологическая единица». Такое определение представляется излишне узким. Фразеологическая единица обычно трактуется как выражение, смысл которого не определяется суммой значений составляющих его слов. «Устойчивость» же фразеологизмов – фактор вторичный, напрямую не связанный с их определением. Существуют устойчивые словосочетания, не являющиеся фразеологизмами, и, наоборот, фразеологизмы, степень устойчивости которых весьма относительна. В частности, составители фразеологического словаря [7] основной упор делают как раз на широком изучении фразеологической вариантности и синонимии.

В настоящей работе предлагается некоторое конструктивное определение устойчивости словосочетания[2], апеллирующее к работам Б. В. Сухотина по морфологическому анализу текста без пробелов [8]. Понятие устойчивости формулируется исходя из анализа лево– и правосторонних расширений всех ее вхождений в текст. Цепочка считается устойчивой, если  число всевозможных различных ее контекстов (как лево–, так и правосторонних) достаточно велико, например, сопоставимо с частотой встречаемости самой цепочки. В продуктивности такого подхода убеждают как результаты самого Сухотина, так и наши собственные работы по выделению элементарных единиц знаменного распева (попевок) из слитного неструктурированного текста [9].

Важной особенностью предлагаемого подхода является учет морфологической и комбинаторной вариативности выделяемых словосочетаний. Последняя подразумевает возможность появления замен, вставок или делеций в отдельных позициях рассматриваемой цепочки. Реализован алгоритм поиска «ближайшей окрестности» каждого словосочетания, что позволяет оценить значимость каждой позиции в словосочетании и включить в анализ ранее не рассматривавшиеся цепочки текста (например, однократно встречающиеся). Анализ комбинаторной изменчивости нацелен уже не столько на выявление «устойчивых словосочетаний», сколько на выявление «устойчивых конструкций» типа образцов (или шаблонов), содержащих константные (консервативные) и переменные (варьируемые) позиции. Примером может служить конструкция типа «не только, но и», где вместо переменных  и  могут фигурировать произвольные словоформы или цепочки слов.

1. Определение устойчивости цепочки слов

Наше определение созвучно понятию «внешней устойчивости» цепочки символов, использованной Б.В. Сухотиным в алгоритме автоматического выделения морфем из слитного (без разделителей между словами) текста [8]. «Внешняя устойчивость» по Сухотину имеет лишь две градации: нулевую (полная неустойчивость) и достаточную. Цепочка имеет внешнюю нулевую устойчивость, если существует другая покрывающая ее цепочка, равная ей по частоте. Иными словами, цепочка может быть лишь единственным образом продолжена как вправо, так и влево. Это означает, что она не имеет самостоятельного значения и функционирует лишь в составе более длинной цепочки, границы которой уточняются аналогичным образом.

Мы переносим данное определение с символов на словоформы и делаем более жестким критерий отбора. Цепочка считается неустойчивой не только тогда, когда она имеет единственное продолжение, но и когда их несколько, но среди них имеется одно, доминирующее по частоте.

Формально, пусть xi – произвольная цепочка текста, содержащая l подряд следующих слов, не прерываемых знаками препинания,  – частота ее встречаемости в тексте. Из всевозможных левосторонних расширений цепочки xi, имеющих форму axi, где a – произвольная словоформа, предшествующая xi, выберем расширение с максимальной частотой встречаемости в тексте. Обозначим его a*xi. Очевидно, что его частота . Аналогично, среди всевозможных правосторонних расширений вида  выберем самое частое – , для которого, в свою очередь, справедливо соотношение . Цепочка  с  считается устойчивой, если одновременно выполняются соотношения:

 и .                                                                    (*)

Пороговое значение  мы выбирали равным 0,5.

2. Алгоритм выделения устойчивых цепочек

Алгоритм состоит из следующих этапов.

1) Используем процедуру морфологического анализа для приведения всех словоформ текста к каноническому виду (учет словоизменительной парадигмы). Фиксируем значение .

2) За один просмотр текста строим дерево словных цепочек, содержащихся в нем, подсчитываем их частоты и фиксируем места вхождения каждой повторяющейся цепочки в текст.

3) Для всех цепочек с частотой не меньшей порогового значения  вычисляем частоты , , для чего используем информацию о местах вхождения каждой цепочки в текст, и  проверяем выполнимость условий (*). Цепочки, прошедшие отбор, объявляются устойчивыми.

4) Увеличиваем значение  на единицу и возвращаемся к п. 2), достраивая те цепочки длины , частота которых удовлетворяет пороговому ограничению. Если таковых не оказалось, процесс отбора устойчивых цепочек заканчивается. В противном случае повторяем процедуру отбора для нового значения .

3. Учет комбинаторной вариативности

выделенных «устойчивых» цепочек сводится к выявлению «ближайшей окрестности» каждой из них. Она включает в себя всевозможные цепочки текста, отличающиеся от исходного словосочетания однократной заменой, вставкой или делецией слова в любой позиции. Если, к примеру, трехсловная цепочка имеет вид , то ее ближайшую окрестность составляют цепочки вида , , , , фиксирующие вставки соответственно в й, й, й, и й позициях; цепочки ,  и , фиксирующие делеции вй, й, и й позициях, а также цепочки вида , , , фиксирующие замены в й, й, и й позициях. Здесь вместо  допускается любая словоформа текста, встречающаяся в соответствующем константном (т.е. составленном из элементов , , ) окружении.

Возможны различные варианты поиска ближайшей окрестности. Эта задача является частным случаем задачи поиска по групповому частично специфицированному запросу, рассмотренной в [10]. Более простой вариант, ориентированный только на однократные замены, вставки, делеции, описан в [11]. Наконец, прямой вариант состоит в сканировании последовательности окнами размера  (поиск вставок),  (поиск замен) и  (поиск делеций) и проверке наличия в каждом окне подпоследовательностей длины ,  и  соответственно, содержащих константные элементы , ,  в нужном порядке. Например, при поиске вставок (размер окна ) отсутствие словоформы  в первой или второй позиции окна (наиболее частый случай) уже означает, что в данном окне нужный образец отсутствует, и можно сдвинуть окно на одну позицию. Для ускорения процедуры можно фиксировать все вхождения словоформы  в текст и проводить анализ только в их окрестности.

Результаты вычисления ближайшей окрестности фиксируются путем указания числа возможных (т.е. реализованных хотя бы однократно в тексте) замен, вставок и делеций по каждой позиции. Эта информация полезна для оценки устойчивости не только цепочки в целом, но и отдельных ее позиций. В частности, возможность вставок внутри цепочки снижает ее устойчивость и может быть учтена при окончательном принятии решения. Аналогично, число различных вставок в й и й позиции (или, что то же самое, число возможных лево– и правосторонних расширений) может само по себе служить основанием для принятия решения об устойчивости цепочки без оценивания доминирующей частоты.

4. Описание эксперимента. Обсуждение результатов.

Обрабатывались четыре текста: перевод Б. Заходера книги Алана А. Милна «WINNIE-the-POOH» (в дальнейшем будем обозначать его буквой «З») объемом 39806 словоформ, статья И. А. Большакова [2] объемом 3650 словоформ («Б»), статья И. А. Секериной «Метод вызванных потенциалов мозга в американской психолингвистике и его использование при решении проблемы порядка слов в русском языке» из материалов конференции «Диалог’2002» объемом 12295 словоформ («С») и полный набор докладов этой конференции, выставленный в Internrt, объемом 442356 словоформ («Д»). Порог отбора словных цепочек по частоте () принимался равным 2, т.е. рассматривались все повторяющиеся цепочки длины два и выше. В первом приближении мы решили не ограничивать себя проверкой отсутствия знаков препинания внутри рассматриваемой цепочки из двух соображений: 1) чтобы не отсеять максимально длинные повторы, которые всегда представляют самостоятельный интерес; 2) чтобы разделить фильтрующие эффекты, связанные с учетом знаков препинания и проверкой «устойчивости» как таковой. Вследствие этого данные о числе выделяемых устойчивых словных цепочек, представленные в табл.1, несколько завышены.

Табл. 1. Число «устойчивых» словных цепочек (абсолютное и в процентах от общего числа повторяющихся цепочек длины ) в рассматриваемых текстах

 

Vтек.

Б

3650

193

69%

31

47%

14

70%

2

50%

1

100%

6

С

12295

762

55%

242

41%

78

28%

26

17%

16

16%

8

13%

4

10%

6

20%

21

Д

442356

33610

63%

12151

45%

3220

24%

1071

13%

466

8%

229

5%

156

4%

110

3%

50

З

39806

3561

71%

1348

61%

355

52%

63

28%

26

22%

10

14%

4

9%

4

13%

25

Нетрудно видеть, что число повторяющихся цепочек, а, следовательно, и выделенных как «устойчивые», быстро убывает с увеличением l. В среднем убывает в процентном отношении и доля отбираемых устойчивых цепочек по сравнению с общим их количеством при заданном пороговом значении Fi. Иными словами, фильтрующий эффект растет с увеличением l. Это объясняется тем, что длинные повторяющиеся цепочки носят, как правило, неслучайный характер, поэтому, начиная с какого-то значения l0, и вплоть до lmax (завершение формирования цепочки) они расширяются с сохранением частоты, т.е. квалифицируются как неустойчивые.

Чтобы проиллюстрировать зависимость числа выделяемых «устойчивых» цепочек от выбора порога, ниже (табл. 2) приведены соответствующие данные для статьи Секериной, полученные при значении порога .

Табл. 2. Дополнение к табл. 1: изменение числа выделяемых цепочек при увеличении порога .

 

Vтек.

С

12295

613

45%

64

11%

13

5%

4

3%

4

4%

1

2%

 

1

3%

Сравнение двух строк с индексом «С» из табл. 1 и 2 показывает, что число выделяемых двусловных цепочек при бо’льшем значении порога уменьшается не слишком сильно (с 762 до 613), зато далее с увеличением  наблюдается уже многократное снижение числа выделяемых цепочек. Это происходит потому, что длинные цепочки () в большинстве своем малочастотные, и повышение порога отбора устраняет бо’льшую их часть.

Все максимальные повторы (см. последний столбец в табл. 1) носят специфический характер. Повтор длины 6 у Большакова связан с одинаковым построением фразы при определении фраземы и полуфраземы. Повтор длины 21 у Секериной – это дублирование («напомним, что…») в разделе «Интерпретация результатов» основной гипотезы, сформулированной ранее. Функциональная важность повтора не вызывает сомнений. Длинные повторы в материалах конференции «Диалог’2002» не являются межтекстовыми, т.е. каждый из них представлен в рамках одного текста из числа имеющихся. Иногда это ссылки на разные разделы одной и той же многотомной монографии с длинным названием и большим числом соавторов, иногда – дублирование наиболее важных исходных посылок, как у Секериной. И, наконец, максимальный повтор у Заходера связан с развитием сюжета – исполнением «по–новому» уже звучавшей ранее песенки. Подводя итог, можно сказать, что длинные повторы важны, но узкоспецифичны.

Чтобы нащупать грань между повтором длинным (узкоспецифичным) и коротким («широкого пользования») была оценена степень пересекаемости множества устойчивых цепочек, выявленных только в «С» и только в «Б», с цепочками, выявленными из всего «Диалога» («Д») с исключенными текстами «С» и «Б» (см. Табл. 3). Из нее видно, что при l=4 в текстах «Б» и «С» еще имеются цепочки, отнесенные к разряду устойчивых и встречающиеся в других текстах «Диалога», а при l=5 общих цепочек уже нет. Поэтому в первом приближении границу по длине между устойчивыми цепочками широкого пользования и узкоспецифичными можно провести где-то в районе значений .

Табл. 3. Число словных цепочек, общих для «Б» и «Д», а также для «С» и «Д».

 

Б

129 (67%)

4 (13%)

1 (7%)

С

444 (58%)

65 (28%)

10 (13%)

(в процентах указана доля «общих» цепочек, от полного числа цепочек, выделенных, соответственно, в «Б» и «С».

Попытка качественно охарактеризовать выделяемые устойчивые цепочки при разных значениях  отражена в табл. 4, где представлены наиболее характерные примеры для каждого текста. Все цепочки условно разделены на две группы: удовлетворяющие критерию «смысловой завершенности» (тип 1, левый столбец) и «требующие завершения» (тип 2, правый столбец). Последние можно охарактеризовать как «константные части образцов с переменными» (или устойчивые части шаблонных языковых конструкций). Цепочки представлены в нормализованном виде и разделены точкой с запятой. Словоформы внутри цепочки отделены друг от друга косой чертой. Цепочки типа 2, требующие завершения, сопровождаются примерами возможных продолжений (см. варианты в круглых скобках).

Табл. 4. Примеры устойчивых цепочек в текстах Заходера, Большакова, Секериной и материалах «Диалога»

Авт.

Тип 1

Тип 2

2

З

Кристофер\Робин; сказать\Пух; добрый\утро; воздушный\шар; день\рождение;

Посмотреть\на\ (солнце, небо, звонок,…); подойти\к (знакомой луже, Пуху, буфету,…);

Б

Полнозначный\слово; лексический\фунуция; свободный\словосочетание; полный\фразема; терминологический\сочетание;

Условие\когда (развитие техники, мейнстрим, обычный носитель языка, сочетаемые…определе- ния); словосочетание\в (машинном словаре, общем случае…); число\разный (аргументов, значений, …дополнений);

С

Вопросительный\предложение; рабочий\память; порядок\слово; процесс\восприятие; время\реакция; количество\электрод; частотность\слово;

Предложение\с (прямым порядком слов, обратным порядком слов, определительным придаточным); связь\между (единицами языка, значением и формой знака,…);

Д

Русский\язык; именной\группа;

с\другой; связанный\с;

3

З

Сказать\Кристофер\Робин; изо\весь\сила; горшок\с\мед; очень\маленький\существо;

Потому\что\ведь (эти три неизвестных зверя, у Пуха опилки в голове, это он выручил Пятачка,…);

Б

Нестандартный\лексический\функция; выводиться\из\смысл;

На\принадлежность\к (значениям ЛФ, аргументам ЛФ);

С

Предложение\со\Скрэмблингом; электрический\активность\мозг; частотность\и\повторяемость;

В\зависимости\от (характера внешнего стимула, модальности поступающего сигнала, структуры общих знаний,…);

Д

В\русский\язык; с\точка\зрение;

Вопросительный\предложение\с;

4

З

Поздравлять\с\день\рождение; родственник\и\знакомый\кролик;

Мочь\на\минутка\перестать (бумкать, вертеться, думать);

Б

Словосочетание\с\лексический\функция; общеязыковой\и\терминологический\значение;

Непосредственный\синтаксический\зависимость\между (составляющими эти фрагменты словами, словами);

С

Нагрузка\на\рабочий\память;
Метод\вызванный\потенциал\мозг;

Проблема\порядок\слов\в (русском языке,экспериментальной психолингвистике,…);

Д

Труд\международный\семинар\Диалог;

Выбор\тот\или\иной; в\настоящий\время\в;

Анализ табл. 4 показывает, что в первом столбце, в основном, фигурируют цепочки, которые можно отнести к разряду свободных, (неидиоматических) словосочетаний. Цепочки типа 2, устойчивые в нашем смысле, но требующие завершения, могут вызвать нарекания лингвистов, поскольку выпадают из существующих классификаций (впрочем, далеко не единодушных). Оправданием нашего интереса к ним может служить то обстоятельство, что аналогичные конструкции широко представлены во многих двуязычных словарях, например, в [12] (важный для, вслед за, изменение в, сводить к, …), и даже в словаре сочетаемости слов русского языка [3]. Примером является конструкция типа «настаивать [на том], чтобы (что)» (см. стр. 305 в [3]), где курсивом выделены главные устойчивые элементы, в квадратные скобки заключены факультативные элементы, а круглые скобки подразумевают множество возможных продолжений. В наших терминах такую конструкцию можно представить в виде образца с переменными: (настаивать  чтобы ), где вместо  допустимы и пустые подстановки. Ниже приведен аналогичный пример (но уже по материалам «Диалога»), демонстрирующий комбинаторную вариативность выявляемых устойчивых цепочек. Конструкция имеет вид: /с//на/естественный/язык, где возможные варианты подстановок выглядят следующим образом: {комфортность общения; способный общаться; система работает; диалог пользователя; пользователь общается}, {ЭВМ, пользователь, текст, компьютер, система}, но не любой  сочетается с любым .

Заключение

Введено понятие «устойчивости» словной цепочки текста и реализован алгоритм выявления устойчивых цепочек разной длины с учетом их морфологической и комбинаторной вариативности. Апробация алгоритма на различных текстах показала, что с его помощью выделяются традиционные объекты типа «свободных словосочетаний», а также конструкции типа шаблонов (образцов), содержащие константные (консервативные) и переменные (варьируемые) позиции. Разработанный инструмент может быть использован лингвистами для автоматизации процесса создания словарей словосочетаний в разных предметных областях.

Литература

1.      Белоногов Г. Г., Быстров И. И., Новоселов А. П. и др. Автоматический концептуальный анализ текстов // НТИ, сер. 2, № 10, 2002. – С. 26–32.

2.      Большаков И. А. Какие словосочетания следует хранить в словарях? // Труды Межд. сем. Диалог’2002. – т. 2. – Изд.–во «Наука», 2002. – С. 61–69.

3.      Учебный словарь сочетаемости слов русского языка. Под ред. П. Н. Денисова и В. В. Морковкина. – М., Изд.–во «Русский язык», 1978.

4.      Коваль С. А., Каткова О. Ф. Системы переводческой памяти и оценка их эффективности // НТИ, сер. 2, № 3, 2002. – С. 17–26.

5.      Гусев В.Д., Саломатина Н.В. Анализ ошибок, не выявляемых автоматическими корректорами // тез. докл. II–й Межвузовской конференции «Квантитативная лингвистика и семантика» (КВАЛИСЕМ-99), Новосибирск, 12–15 октября, 1999, С. 8–12.

6.      Ахманова О.С. Словарь лингвистических терминов. Изд.–во «Советская энциклопедия», М. 1969. – 490с.

7.      Мелерович А. М., Мокиенко В.М. Фразеологизмы в русской речи Словарь. – М.: Русские словари, 1997. – 864 с.

8.      Сухотин Б. В. Оптимизационные методы исследования языка. Изд.–во «Наука», М., 1976. – 169 с.

9.      Бахмутова И.В. , Гусев В. Д., Титкова Т. Н. граммные азбуки для дешифровки знаменных песнопений // Сибирский журнал индустриальной математики. – т. 1, № 2, 1998. – С. 51–66.

10.   Гусев В. Д., Немытикова Л. А. Алгоритм поиска в текстовых базах данных по групповому частично  специфицированному запросу // Искусственный интеллект и экспертные системы. – Новосибирск, 1996. Вып. 157: Вычислительные системы. – С. 12–39.

11.   Саломатина Н. В. Создание и исследование компьютерного словаря паронимов // Анализ данных и сигналов. – Новосибирск, 1998. – Вып. 163: Вычислительные системы. С. 97–112.

12.   Циммерман М., Веденеева К. Русско–английский научно–технический словарь переводчика. Изд.–во «Наука», М., 1991. – 735 с.



[1] Работа выполнена в рамках проекта № 03-06-80118, поддержанного грантом РФФИ.

[2] Точнее было бы говорить об устойчивости повторяющейся цепочки из  подряд следующих слов текста, не прерываемых знаками препинания, поскольку мы не требуем наличия синтаксической связи между словами в цепочке, что многими кладется в основу определения словосочетания