Proceedings 2001

Contents

 

 

Бессловарный сетевой морфологический тегер

 

Е.А. Доквадзе, Л.Л. Лордкипанидзе, Г.Б. Чикоидзе

Отдел языкового моделирования

Институт систем управления им. А. Элиашвили

Академия Наук Грузии

\

 

 

  1. Введение

 

Тегирование больших текстовых массивов (corpora) создает дополнительные, и, по-видимому, весьма существенные перспективы для подхода к созданию языковых процессоров (NLP), опирающегося на статистику текстов (corpora based NLP). Уже на морфологическом уровне тегирование должно обеспечивать достаточно богатый и надежный вклад в общую информацию, извлекаемую из текстов, за счет резкого сокращения разнообразия возможных наборов характеристик по сравнению с "голыми" словоформами, а также за счет гораздо более строгих закономерностей, определяющих порядок следования этих наборов. Отражение в статистике закономерностей, обусловленных синтаксисом, в свою очередь, создает предпосылку для их учета в процессоре, разрабатываемом на основе этой статистики.

Не исключено использование статистических данных, касающихся порядка следования наборов морфологических характеристик в тексте, также и при разработке "обычных" языковых алгоритмов анализа, с самого начала исходящих из системы синтаксических закономерностей, таких к примеру, как конфигурационный синтаксический анализ, сформулированный в [И. А. Мельчук. 1964]:  учет статистических данных может способствовать в этом случае ускорению функционирования процессора, определяя шкалу приоритетов, в свою очередь, обусловливающую наиболее эффективную последовательность проверки возможных вариантов продолжения наличного синтаксического контекста.

Частным случаем этой общей схемы поиска наиболее вероятных продолжений наличного контекста является, например, прикладная задача, формулируемая обычно как "Поддержка печатающего текст" (Writing support…) Компьютер предлагает пользователю наиболее вероятные продолжения уже набранного текста и в случае совпадения печатает нужное слово после однократного нажатия клавиши, идентифицирующего выбор. Согласно проведенным экспериментам использование этой поддерживающей системы сокращает число нажатий на клавиши от 15% до 30%. Одной из целей общего шведско-грузинского проекта (KTH, Stockholm - ИСУ АН Грузии, Тбилиси) было повышение эффективности таких систем за счет предварительного морфологического тегирования текстов, служащих источником соответствующих статистических данных. Участие в проекте [G. Chikoidze, Sh. Hunnicut, 1998] послужило для нас непосредственным поводом для обращения к задаче тегирования.

Большой объем работы, обусловленный громадным объемом текстовых массивов, и относительное единообразие отдельных шагов процедуры тегирования, указывают на целесообразность попытки автоматизации (хотя бы частичной) этого процесса. Наиболее естественным "кандидатом" на исполнение этой функции представляется обычный морфологический анализ. При наличии такового единственным, но весьма серьезным практическим препятствием может служить отсутствие интегрированного с этим анализом словаря достаточно большого, в идеальном случае исчерпывающего, объема, соответствующего громадным размером и необходимым разнообразием базисного массива текстов. Предлагаемая система тегирования является попыткой обойти эти сложности, в данном случае, отменяя необходимость колоссальной разработки словаря упомянутого объема.

Вместе с тем, такой подход ставит новую задачу, не столь громоздкую как создание крупномасштабных словарей, но зато и более сложную: а именно, разработать (полу -автоматический анализ, определяющий морфологические характеристики словоформы, игнорируя при этом ту мощную информационную поддержку, которую словарь оказывает обычным морфологическим процессорам. Отсутствие этой словарной поддержки, центром тяжести которой естественно служит основа слова, диктует необходимость искать опору процесса, в первую очередь, в аффиксах, а в случае таких сугубо суффиксальных языков как русский - именно в суффиксах словоформы, т.е., другими словами, анализировать словоформу, начиная с ее конца. При прочих равных условиях, преимущество такого подхода обусловлено несравнимо меньшим разнообразием окончаний сравнительно с начальным отрезком словоформ, представленным основами, т.е. полным набором лексики. С другой стороны, эта схема усугубляет сложности, связанные с омонимией суффиксальных морф (дела - пела, весна - красна, крыша - слыша и т.д.) и/или совпадением этих морф с конечным отрезком основы (мать - дремать, мелочь - волочь, спрут - сопрут, котят - хотят и т.д.). Помимо таких частичных совпадений, в принципе разрешимых автоматически за счет обращения к различающим начальным отрезкам словоформы, нередки случаи полного совпадения, т.е. случаи, когда одна и та же словоформа (последовательность графем/фонем) соответствует различным наборам морфологических характеристик в зависимости от контекста, где она встречается: пила, рою, рыла и т.д. В обычном письменном/печатном тексте ситуация заметно усложняется из-за отсутствия маркера позиции ударения (м'ою-мо'ю, к'оли-кол'и, с'ела-сел'а), а иногда и двоеточия над 'е' (сел-сёл, осел-осёл и др.) Очевидно, если мы хотим избежать присваивания этим словоформам столь резко различающихся наборов морфологических характеристик необходимо предусмотреть в случае неразрешимых неоднозначностей подобного рода возможность обращения системы к оператору, т.е. свести статус ее независимости на уровень полуавтоматического.

Что касается избранного нами специфического способа представления морфологического тегера, то оно было продиктовано общими соображениями, касающимися роли сетей для представления лингвистических процессоров вообще и их морфологического уровня, в особенности. В результате многолетних поисков в этой области, мы, в конце концов, отдали предпочтение именно сетевому методу, в первую очередь, потому что именно он образует хорошую основу для построения двунаправленных (синтез/анализ) морфологических процессов, моделирующих одну из наиболее ярких динамических характеристик NL : способность носителя мгновенно и беспрепятственно переключаться с "говорения" на понимание, и наоборот, что, в частности, предполагает скорее наличие единого механизма, чем существование двух независимых подсистем.

Немалым достоинством сетевого подхода является и то, что в течение сравнительно небольшого отрезка времени удалось обеспечить и его программную реализацию и даже создать некое подобие программной оболочки, правда, пока тестированной лишь на английской морфологии и фрагментах русского морфологического тегера. Убеждение в значимости сетевого подхода к представлению языковых процессоров послужило едва ли не главным стимулом к выполнению данной работы, результаты которой помимо прочего подтверждают универсальность подхода, по крайней мере, в рамках морфологического уровня. В результате незначительного обобщения была получена сетевая схема, обеспечивающая двунаправленность в обоих измерениях функционирования: "вертикального" (синтез/анализ) и "горизонтального" (слева направо/справа налево).

В заключение этого вступительного раздела отметим еще несколько перспективных применений для предложенной здесь сетевой схемы морфологического тегирования. Прежде всего, система, по-видимому, без особых осложнений может быть превращена в частично самообучающуюся. В частности, она может быть использована для полуавтоматического компилирования соответствующего словаря, причем после завершения этой процедуры, задача собственно тегирования может выполняться посредством обычного морфологического анализа, интегрированного со скомпилированным словарем. Наконец, эта схема может, как уже упоминалось, служить для ускорения работы как отдельных компонент языкового процессора (поиск в словаре, морфологический/синтаксический анализ), так и некоторых чисто прикладных систем (например, спелчекер).

           

 

  1. Морфологические сети (MN).

 

            "Зародыш" рассматриваемого здесь сетевого представления в [Е.А. Доквадзе, Г.Б. Чикоидзе, 1975], однако, дальнейшее развитие этого направления "задержалось" на 20 лет с лишним, а отправной точкой для него послужила работа [Г.Чикоидзк,1997] представленная в свое время на Dialogue'97. Ниже дается общая характеристика сетевого подхода.

            Как и обычные сети MN представляет собой множество узлов, из которых исходят направленные дуги, не образуя замкнутых контуров. Дуги представляют собой возможные пути перехода из одного узла в другой, причем сеть всегда имеет единственный начальный узел (“источник”, source), не имеющий ведущих к нему дуг, и, строго говоря, единственный – конечный («целевой», target), но в случае MN этот последний, как правило, не изображается: его заменяет множество дуг, которые не ведут ни в какой узел данной сети.

            Каждый узел MN может быть помечен (LBL), а каждая дуга может иметь две метки: левую (LHL) и правую (RHL). Совокупность этих меток (LBL, LHL, RHL) представляет условия, при выполнении которых соответствующая дуга «открыта» для продвижения в узел, где она оканчивается. Процесс, протекающий в сети может быть представлен как продвижение «активной точки» (AP) от «начального» узла – к «конечному», однако, этого последнего она достигает лишь в случае успешного завершения процесса, в противном случае она «застревает» в одном из промежуточных узлов. Продвижение АР по MN представляет собой последовательность однородных шагов, ведущих из одного узла в другой, и поэтому может быть полностью определено описанием единственного шага, соответствующего Рис. 1.

Выбор дуги, открытой для продвижения АР, осуществляется последовательной проверкой условий (LBL,LHLj, RHLj) для всех исходящих дуг 0 £ j £ n; если для некоторого i £n  это условие выполнено, А продвигается по i дуге в TGNi, в противном случае процесс терпит неудачу.

            Семантика процесса продвижения АР, в общем плане, может быть охарактеризована замечанием, что этот процесс соответствует постепенному наращиванию слева направо синтезируемой словоформы или расчленению (в том же направлении) анализируемой. При этом, отдельные, в некотором смысле – основные, шаги продвижения добавляют/вычленяют отдельные морфы, а остальные подготавливают эти основные операции или фиксируют их результаты.

 

 

           

RHL0

 

LHL0

 

AP

 

LHLi

 

 

RHLi

 

 

 

LHLn

 

RHLn

 

 

 

 

Рис.1  Выбор дуги, открытой для продвижения AP, осуществляется последовательной проверкой условий   (LBL,LHLj, RHLj) для всех исходящих дуг

0 £ j £ n;  если для некоторого    i £ n  это условие выполнено,  A  продвигается по i-й дуге в  TGNi, в противном случае процесс терпит неудачу.

 

Более детальная характеристика связана с семантикой условий, определяющих каждый конкретный шаг. Формально она может быть представлена следующим образом: имеется некоторое множество переменных МСН, на элементы которого указывают метки узлов LBL (если они присутствуют, т.е. если узел “не пуст”), тогда левая метка LHL представляет собой подмножество значений переменной, на которую указывает LBL; условие, определяемое парой (LBL, LHL), считается выполненным, если пересечение LHL с текущим значением переменной, определенной LBL, не пусто. Если условие (LBL, LHL)выполнено, процедура обращается ко второму условию, связанному со значением RHL: оно предполагает наличие некоторой упорядоченной последовательности переменных WF: ,

                l0,l1,…li'…ln                                 (1)

и представление самой правой метки RHL в виде аналогичной последовательности; далее, в каждый текущий момент (на каждом шаге процесса) WF характеризуется некоторым значением I

 

                            0 £ I £ n;                          (2)

 

второе условие, а с ним и комплексное условие, определяющее выбор дуги, выполнено, если последовательность RHL унифицируется с начальной подпоследовательностью конечного отрезка WF, начинающегося   c li:

                                            li…ln;                               (3)

что же касается унифицируемости последовательностей переменных, то она считается выполненной, когда унифицируемы все их элементы, расположенные на соответственных местах, а эти последние удовлетворяют условию унификации, если один из них равен нулю ("пуст") или если они равны.

            Важнейшими, с точки зрения наших задач, побочными эффектами выполнения комплексного условия являются: присваивание переменной MCH, на которую указывает LBL, множества значений, соответствующего пересечению текущего множества значений этой переменной с LHL, во-первых, и означивание последовательности переменных WF соответственными значениями RHL, во-вторых. Значение этих побочных эффектов станет очевидным, если обратиться к более конкретной интерпретации перечисленных выше объектов (MCH,WF,LBL и т.д.), непосредственно связанной с задачами, для решения которых предлагаются MN, а именно, задач построения двунаправленных морфологических процессоров. MCH интерпретируется в этом контексте как набор морфологических характеристик (определенных при синтезе или определяемых в ходе анализа), WF - как запись словоформы (анализируемой или синтезируемой), LBL- соответствует одной из характеристик MCH, LHL - подмножеству ее значений, а RHL – фрагменту словоформы (чаще всего - морфе). Легко видеть, что отношение между двумя условиями, (LBL, LHL) и RHL, весьма прозрачно коррелирует с классическим отношением языкового содержания к языковому выражению.

            Более детальное описание MN можно почерпнуть из [G.Chikoidze, 1998 a,b] или [Г.Чикоидзе, Б.Имнадзе, 1999]. Здесь же мы ограничимся упоминанием нескольких моментов, существенным образом характеризующих специфику рассматриваемого подхода к задаче представления морфологических процессоров и, в частности, тегеров:

  1. Полное описание системы включает преобразователь, выполняющий пока лишь две функции - отсечение и слияние дуг, исходящих из одного узла. Обращение к преобразователю происходит посредством RHL специального типа, причем условие RHL при этом всегда считается выполненным.
  2. Система допускает точки возврата (RTP), обозначаемые угольчатыми скобками <lbl> , в которые заключается метка соответственного узла.
  3. Наконец, важнейшим свойством системы является ее иерархичность, предполагающая возможность обращения в ходе процесса прохождения данной сети к сетям низшего уровня. Обращение также происходит из записи RHL, где оно маркировано особыми символами (например, в последовательность малых букв, изображающую фрагмент словоформы (морфу) "вкрапливается" последовательность из больших букв и цифр, вызывающая некоторую вспомогательную сеть, как правило, реализующую выбор некоторой подпоследовательности из числа возможных в этой позиции фрагмента). Условие RHL оказывается выполненным, если, в частности, все обращения к сетям нижнего уровня закончились успешно.

В заключение раздела отметим, что предварительный эксперимент по разработке сетевого тегера пока использует, и притом весьма интенсивно, лишь свойство, упомянутое в последнем (3-м) пункте, однако, в перспективе первые два пункта также заслуживают внимания и в контексте разработки сетевых тегеров.

 

 

 

 

3.Сетевой тегер.

 

Попытка положить в основу бессловарного тегера представление, описанное в предыдущем разделе, обуславливает необходимость определенного расширения этого последнего, приводящего систему MN в соответствие со спецификой новой задачи. Опираясь на изложение основных черт MN системы, которому был посвящен раздел 2, мы здесь ограничимся лишь указанием тех дополнений, которые, как обнаружилось в ходе предварительного эксперимента, необходимы для приспособления MN к новым целям.

Наиболее бросающимся в глаза и вместе с тем наиболее тривиальным отличием является изменение направления анализа словоформы на обратный, т.е. справа - налево или от конца - к началу. Два возможных выхода: 1) изменение порядка следования букв, как в анализируемой словоформе, так и во всех фрагментах (RHL), идентифицирующих ее компоненты; 2) предварительное измерение длины фрагмента L(RHL) и попытка его идентификации, начиная с позиции (I-L+1), где I - позиция первой с конца еще не идентифицированной буквы. Пока что мы остановились на втором варианте, обеспечивающем более высокий уровень мнемоники, что весьма существенно в процессе разработки системы, однако, первый вариант может оказаться более предпочтительным, с точки зрения быстродействия, выступающей на первый план в период практического использования готовой системы. Еще одним плюсом первого варианта явилось бы то, что он не коснулся бы основной системы, затронув лишь интерфейс, обеспечивающий подачу очередной словоформы текста, которая в таком случае сопровождалась бы и однократной процедурой замены порядка следования букв на обратный.

Следующее обобщение также связано с RHL, в частности, предполагается, что правая метка дуги может быть представлена не только единичным фрагментом, но и множеством таких фрагментов, разделенных запятыми, или указателем на такое множество, заключенным в фигурные скобки {rhl}, где rhl имя множества фрагментов

 

{f0,f1,…fm}.                          (4)

 

Условие RHL выполнено, если хотя бы один из фрагментов fj,  0£ j £ m унифицицируется с текущим отрезком WF.

Необходимость этого дополнения обусловлена часто возникающими в процессе бессловарного тегирования ситуациями, в которых принятие определенного решения, в частности, отнесение анализируемой словоформы к определенному морфологическому классу, возможно лишь при условии ее принадлежности к некоторому сравнительно небольшому множеству словоформ. Так, например, для того, чтобы русская словоформа, оканчивающаяся на -ти+сь оказалась инфинитивом возвратного глагола, необходимо, чтобы на следующем шаге она унифицировалась  с одним из элементов списка

 

 

{й, пас, вес, плес, вымес, нес, брес, мяс, тряс},

 

содержащего 9 фрагментов; в противном случае она может оказаться формой единственного числа повелительного наклонения (например, обратись, крутись и т. д.), причем численность словоформ этого последнего типа намного больше 9-и элементов.

Нередки и прямо противоположные случаи, когда определенное значение морфологической категории может быть приписано любой словоформе, удовлетворяющей некоторым условиям, но в то же время не принадлежащей к некоторому ограниченному классу: здесь примером могут служить русские словоформы, оканчивающиеся на -я+сь: единственным дополнительным условием их принадлежности к классу деепричастий настоящего времени является их неидентифицируемость ни с одним из двух фрагментов

 

{отрод, обину}.

 

Естественным путем решения этой задачи является обобщение RHL условия на случай его отрицательности, т.е. на случай, когда условие считается выполненным лишь при невыполнении RHL. Этот случай маркируется знаком '-', предваряющим одиночный фрагмент или множество фрагментов:  RHL.

Наконец, возвращаясь к рассмотренному выше случаю русской словоформы, оканчивающейся на пару морф -ти+сь, выделим ряд случаев, когда инфинитив и повелительное наклонение выражаются идентичными формами, иногда от различных лексем, как, например, форма:

скрес+ти+сь,

соответствующая не только возвратному варианту инфинитива 'скрести', но и повелительной форме от возвратного глагола 'скреститься'; в других случаях от одной и той же лексемы;

 

разрас+ти+сь, срастись.

 

В этих и подобных им случаях вмешательство оператора становится необходимым, если мы, конечно, хотим избегать приписывания альтернативных значений морфологических категорий. В случае "классического" морфологического анализа чаще всего, не прибегая к помощи оператора, учитывают все возможные варианты наборов морфологических значений, имплицитно подразумевая, что снятие этой неопределенности будет происходить на высших уровнях (синтаксис,семантика,прагматика). В нашем случае (тегирование) нам представляется разумным возложить эти функции на пользователя, по крайней мере, до тех пор, пока соответствующие высшие уровни не будут надстроены над базисным морфологическим тегером. В структуре сети соответствующие позиции отмечаются вопросительным знаком '?', предваряющим значение lhlкатегории LBL:  ?'lhl'.

Стандартный вопрос может быть сформулирован в виде:

" Имеет ли LBL значение lhl для данного слова?";

при положительном ответе условие  (LBL, LHL) считается выполненным, а при выполнении и второго условия (RHL) переменной MCH, на которую указывает LBL, присваивается значение lhl.

Легко видеть, что все предложенные выше добавления не вносят существенных изменений в характер подхода. Действительно, введенные нами в этом разделе множественные значения для фрагментов, образующих RHL, очевидно, могут быть заменены обращениями к вспомогательным сетям самой примитивной структуры, и, по сути дела, являются именно таковыми. Отрицательный вариант RHL лишь повторяет аналогичный прием, ранее применявшийся для LHL (правда, мы об этом не упоминали в предыдущем разделе, считая эту деталь не слишком существенной). Возможная целесообразность апелляций к пользователю и для обычного морфологического процессора уже упоминалась выше (например, при его использовании в качестве вспомогательного программного средства в рамках системы полуавтоматического перевода с одного языка на другой, не говоря уж о тех же системах тегирования, основанных на использовании обычного "словарного" морфологического процессора). Наконец, что касается изменения порядка букв в последовательностях, представляющих словоформы и их фрагменты, то, во - первых, эта деталь вовсе не существенна, а, во-вторых, как уже упоминалось, может быть вынесена за рамки базовой системы сетевого представления.

 

 

  1. Тегирование русских возвратных глаголов.

 

Целесообразность всех изменений и расширений, перечисленных в предыдущем разделе, выявилась в ходе весьма ограниченного эксперимента по созданию бессловарного тегера для русских возвратных глаголов. Прежде всего, выбор именно русского языка, кроме упомянутых в 1-м разделе чисто внешних причин, был обусловлен и характером русской сильно флективной морфологии: именно этот морфологический строй языка делает его, по-видимому,  наиболее удобным объектом для подобных экспериментов. В отличие, с одной стороны, от английского, чрезвычайно бедного окончаниями, а, следовательно, и закодированной в них информацией, а, с другой, от грузинского с его слишком сложной структурой окончаний, структура окончаний русской словоформы не представляется чрезмерно усложненной и, вместе с тем, является достаточно информативной.

     Эти предпосылки подтвердились и в рамках  проведенного нами весьма скромного эксперимента, который, несмотря на это, оказался вполне достаточным для выявления необходимости/желательности дополнений, рассмотренных в разделе 3. Характерно, что все пункты этого рассмотрения были проиллюстрированы на примерах, предоставляемых именно русскими возвратными глаголами. Исключением как будто служило предположение о целесообразности изменения направления общего хода анализа на обратный, а именно "от конца - к началу", однако, именно эта предпосылка находит наиболее убедительное оправдание в случае русского возвратного глагола: концевые сочетания -ся, -сь с очень большой долей вероятности предсказывают принадлежность анализируемой (тегируемой) словоформы к классу возвратных глаголов. Именно это обстоятельство определяет структуру исходного узла базисной сети, представляющей тегер русского глагола (Рис.2): исходящие из него дуги помечены RHL, равным 'ся', 'сь', ' ', т.е. первая пара ведет к подсетям, анализирующим формы на 'ся' и 'сь' соответственно, а последняя дуга к сети, обрабатывающей все остальные случаи, среди которых уже не будет возвратных глаголов. Экономя место, мы приводим на Рис.2 лишь подсеть, предназначенную для анализа форм на 'ся', хотя и вторая подсеть (для форм на 'сь') разработана полностью и сейчас начато конструирование третьей подсети, призванной обеспечить тегирование русских невозвратных глаголов.

     Переходя к  общей характеристике сети, представленной на Рис.2, прежде всего, добавим еще одну деталь представления MN, не попавшую в число наиболее существенных черт, перечисленных во 2-ом разделе. Эта особенность касается "пустых"  LBL,LHL и RHL: не вдаваясь в подробности, определим, что "пустые" LHL и RHL символизируют всегда выполненные условия, первое (LBL,LHL)  и второе - RHL, а "пустая" метка LBL, не указывая ни на какую переменную MCH, избавляет от необходимости соответствующего присваивания значений.

     Общая структура подсети, соответствующей 'ся’ -окончанию, определяется категорией "глагольной формы" (VF), значениями которой являются имена классов глагольных форм: причастий  (r), повелительного наклонения (m), инфинитива (n), настоящего/будущего времени  (s), прошедшего времени (p) и деепричастия (d). Два узла, помеченные   VF как раз имеют в качестве LHL эти значения, а в качестве RHL обращения к соответственным сетям нижнего уровня, устанавливающим принадлежность/не принадлежность анализируемой словоформы к этому классу: R1, R2, IM - к причастиям, M1 - к повелительному наклонению,  N1 - к инфинитиву,  S1 - к формам настоящего/будущего времени,   P1 - к прошедшему времени.       

RHL 2-й (отсчет дуг ведется с нулевой) дуги представлен отрицательным списком

    -{D},  

исключающим такие неглагольные формы как:

 вся, гуся, лося, карася, порося, бабуся … и т.д., а также глагольные формы, являющиеся невозвратными деепричастиями настоящего времени:

ворся, форся, вакся, ляпся.

Напротив, именно начальные фрагменты этих деепричастий образуют список {D1}, разрешающий переход по последней (3-ей) дуге. Остальная часть описания подсети для форм на 'ся' выключена в подпись под Рис.2

 

 

 

 

 

 

 

 

 

 

           
   

s

 
 
   

r

 
 

s

 
 

r

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис.2.  Сеть тегирования глагольных форм, Полностью представлена лишь подсеть анализа форм на 'ся'. Значение некоторых символов: T -время глагола  (s- настоящее/будущее,  p-прошедшее),  N - число (s - единственное, p- множественное),  G- род (m-мужской f-женский,  n-средний),  P- лицо (1- 1-е,2-2-е,3-3-е), RF- рефлексивность (r-возвратный глагол, u-невозвратный), PS-часть речи  (v- глагол, n-существительное,  a-прилагательное,…). Остальные комментарии см. в тексте.

 

В качестве иллюстрации приведем одну из сетей самого нижнего уровня, а именно сеть M1, определяющую принадлежность/не принадлежность формы на 'ся' к категории повелительного наклонения (Рис.3).

RHL  начального узла определяет морфы повелительного наклонения, которые могут предшествовать морфе возвратности 'ся': 'й' и 'ь'. RHL следующего узла выделяет те случаи, которые требуют выполнения некоторого дополнительного условия, когда 'ся' непосредственно предшествует 'ь'. Эти условия выражены списками I, I1, I2, I3.  Так, список  I содержит начальные компоненты глагольных форм на -чь+ся, однозначно выражающих повелительное наклонение: собачься, фордыбачься, озадачься… и т.д. В противоположность этому в I1 входят три глагола  и их начальные компоненты, которые наряду с повелительным наклонением глаголов 'спрятаться', 'перепрятаться', 'запрятаться' могут выражать инфинитив другого глагола: 'запрячься', 'перепрячься', 'спрячься' (совершенный вид глаголов 'запрягаться', 'перепрягаться', 'спрягаться' соответственно). Эта двусмысленность как раз и разрешается LHL дуги, помеченной справа {I1}.  Наконец, в сумме  I+I1  исчерпывают возможность образования повелительного наклонения для глаголов на -чь+ся, исключая при этом из рассмотрения однозначные инфинитивы: печься, остеречься и т.д. Аналогичные функции для форм на -ть+ся, -ешь+ся выполняют  I2,I3.

 

?m

 
 
   

{I}

 

й

 

 

{I1}

 

ч

 

 

 

{I2}

 

т

 

ь

 

 

 

 

еш

 

 

{I3}

 

 

 

 

 

Рис.3.  Сеть для анализа форм повелительного наклонения. Комментарии см. в

тексте.

 

 

 

5, Заключение.

 

Ближайшей целью разработки русского бессловарного сетевого тегера является завершение компонента, анализирующего невозвратные глагольные формы. Вместе с уже разработанной частью это приведет к созданию исчерпывающего глагольного компонента.

Система ориентирована на максимальный охват морфологических характеристик. Ограничивающими факторами являются объем списков, соответствующих множественным RHL, с одной стороны, и частота обращений к пользователю, с другой.

Конечно, нежелательно и чрезмерное усложнение структуры MN. Исходя из этих соображений, мы пока воздерживались от определения значений категории вида, однако, в дальнейшем такая попытка намечается, тем более что в некоторых случаях (например, для причастий и деепричастий настоящего времени) эта категория однозначно определяется вместе со значениями некоторых других категорий.

Другим ориентиром служит надежность и учет особенностей максимального диапазона текстов. Существенной гарантией в этом отношении является использование в качестве базисного источника замечательного словаря (А.Зализняк, 1977.), на который опирались почти все разработчики русских морфологических процессоров нескольких последних десятков лет.

Повышения эффективности можно искать и иным, принципиально более интересным и перспективным путем, а именно, за счет внесения в систему элементов самообучения, хотя бы опять-таки  в полуавтоматическом, интерактивном режиме. В первом приближении можно добиться постепенного сокращения числа обращений к оператору за счет пополнения множественных списков {L} на основе информации, полученной от оператора при очередном обращении к нему. Более амбициозные планы можно связать с перспективой "симбиоза" обычного морфологического процессора с ограниченным словарем, включающим все сложные случаи ("исключения" из общих правил), с одной стороны, и тегера, обращение к которому происходит, когда "обычный" анализ терпит неудачу, с другой стороны, причем после каждого такого обращения словарь (полу -) автоматически пополняется. Уже разработанные программные средства послужат основой для реализации и такой системы.

В заключение, вновь обращаясь к конечным целям создания тегера, частично охарактеризованным во Введении, отметим все возрастающее значение и влияние статистического подхода в области разработки языковых процессоров (NLP). Как часто бывает в подобных случаях, сравнительно "новые" статистические методы и их сторонники, как правило, выступают оппонентами (часто непримиримыми!) "старых" алгоритмических подходов в рамках компьютерной лингвистики. На деле (как это опять-таки довольно часто, если не всегда, оказывается!), именно комбинация этих двух безосновательно разделенных и противопоставленных методов может оказать благотворное влияние на развитие   NLP и лингвистики в целом. И с этой точки зрения, трудно переоценить роль и значение грамматического тегирования корпусов, подготавливающего почву для статистического подхода к  NLP, а в свете только что сказанного, возможно и для решительного прогресса компьютерной лингвистики в целом.

 

 

Литература

 

И. А. Мельчук, 1964. Автоматический синтаксический анализ, Ред.-изд. отд. СЩ АН СССЗ, Новосибирск.

  1. Chikoidze, Sh. Hunnicutt, 1998. Russian word predictor for writing support.

Technical report.

Е.А.Доквадзе, Г.Б.Чикоидзе, 1975. Формообразовательный этап синтеза грузинского имени. Труды ИСУ АН ГССР, сб. " Машинный перевод", XIII :3.

Г.Чикоидзе, 1997.  Графовое представление морфологического уровня. Труды Международного семинара " Диалог 97" по компьютерной лингвистике и ее приложениям. Ясная Поляна (Россия).

  1. Chikoidze, 1998 a. Net representation of reversible morphologic processor. Proceedings of the Second Tbilisi International Symposium on Language, Logic. Computation, Tbilisi.

Г. Чикоидзе, Б. Имнадзе, 1999. Компьютерное представление лингвистических знаний. Периодический журнал "Интеллект", 3(6), Фонд возрождения наук Грузии "Интеллект", Тбилиси.

  1. Chikoidze, 1998 b. Bi-functional English Morphologic Processor. Proceedings of A.Eliashvili Institute of Control Systems, Tbilisi.

Г. Б. Чикоидзе, 1985. Параллельность и инвариантность в языковых моделях. Тезисы докладов и сообщений школы-семинара "Семиотические аспекты формализации интеллектуальной деятельности" ("Кутаиси -85"), Кутаиси.

            А.Зализняк, 1977. Грамматический словарь русского языка. Изд. "Русской язык", Москва.