Синтаксически аннотированный корпус чешского языка

The Prague Dependency Treebank

 

Недолужко А. (nedoluzko@ufal.mff.cuni.cz), Гаич Я. (hajic@ufal.mff.cuni.cz), и кол.

 

Институт формальной и прикладной лингвистики, физико-математический факультет, Карлов университет, Прага, Чехия (ÚFAL MFF UK)

 

 

 

The Prague Dependency Treebank (PDT 2.0) – это корпус текстов чешского языка, аннотированный на трех связанных между собой уровнях – морфологическом (2 млн словоупотреблений), поверхностно-синтаксическом (1.5 млн) и глубинно-синтаксическом (0.8 млн). На глубинно-синтаксическом уровне аннотируется также актуальное членение предложений и именная кореференция. PDT 2.0 основан на пражской лингвистической традиции, адаптированной к требованиям современной компьютерной лингвистики. Аннотация корпуса проводится частично автоматически.

Помимо обширного корпуса чешских текстов разрабатывается проект параллельных текстов на чешском и английском языках (The Prague Czech-English Dependency Treebank), где подобным образом аннотируются тексты из Wall Street Journal и их переводы на чешский язык. Целью проекта является подготовка текстовой базы для обучения компьютера машинному переводу.

      В реферате я представлю общую схему аннотации с особым акцентом на глубинно-синтаксический уровень, расскажу о системе синтаксических функторов узлов на этом уровне и словаре моделей управления предикатов, встроенном в проект, а также отвечу на все возникшие вопросы.

 

 

 

1. Общие сведения

Синтаксически аннотированный корпус чешского языка (PDT) – это проект лингвистического (морфологического, синтаксического, семантического, прагматического и др.) аннотирования текстов, разрабатываемый в настоящее время в Институте формальной и прикладной лингвистики физико-математического факультета Карлова университета в Праге. Последняя версия проекта, PDT 2.0, содержит большое количество чешских текстов (2 млн. словоупотреблений) с аннотацией (взаимосвязанной)  на трех уровнях морфологическом (2 млн. слов), поверхностно-синтаксическом (1.5 млн. слов) и глубинно-синтаксическом (0.8 млн. слов). Корпус использует самые современные способы аннотации (раздельная аннотация уровней с использованием XML, RelaxNG). К корпусу также прилагается отдельная поисковая программа Netgraph, позволяющая производить сложный поиск по многим параметрам и собирать материал и статистические данные для лингвистических исследований.

Аннотирование синтаксических уровней производится вручную на основе предварительных автоматических аннотаций, т.е. фактически аннотирующий лингвист просматривает уже готовую аннотацию, дополняет ее и исправляет ошибки. Аннотирование синтаксических уровней проводится с помощью специальной программы для аннотирования корпусных данных TrEd (од tree  editor), разработанная на ÚFAL MFF UK. Аннотирование вручную проводится аннотаторами с лингвистическим образованием, причем регулярно проводится тест на т.наз. «соответствие аннотаторов», т.е. все аннотаторы, работающие на данном проекте, аннотируют одни и те же тексты, на которых затем проводится автоматическая проверка соответствия. 

Лингвистическая основа PDT восходит к традициям пражской лингвистической школы и функционально-грамматическому описанию языка,  разработанному в шестидесятых годах двадцатого века чешским лингвистом П. Сгаллом и его учениками.

PDT  - один из нескольких десятков проектов синтаксически аннотированных корпусов, разрыбатываемых в настоящее время в мире. Идейным вдохновителем проекта послужил американский PennTreebank (http://www.cis.upenn.edu/~treebank), однако со структурной точки зрения он значительно отличается от PDT и разработан на основе принципа непосредственных составляющих. Лингвистически близким PDT является разработка И.Богуславского и система уровней ЭТАПа-3, но в PDT несравнимо большую роль играет статистика, иначе работает система синтаксических отношений, больше объем обработанного автоматически и вручную материала и т.д. С т.з. количества синтаксически обработанного материала PDT можно сравнить с корпусом датских текстов Danish Dependency Treebank – 5500 синтаксически аннотированных деревьев (http://www.id.cbs.dk/~mbk/treebank), португальских текстов - The Floresta Sintá(c)tica project, 10000 деревьев (http://acdc.linguateca.pt/treebank/info_floresta_English.html), турецких текстов – METU-Sabanci Turkish Treebank (http://www.ii.metu.edu.tr/~corpus/treebank.html) и др. Несомненным преимуществом PDT является комбинация большого количества аннотированных текстов с богатой лингвистической информацией, в т.ч. выходящей за рамки одного предложения (аннотация кореференции, актуального членения, сочинительных конструкций и др.)

Автор данного доклада, А. Недолужко, ведет аннотацию кореференции на тектограмматическом уровне, а также занимается синтаксической аннотацией английских предложений для проекта PEDT (см ниже), Ян Гаич является руководителем всего проекта.

 

 

2. Уровни аннотации

Аннотирование проводится на трех уровнях морфологическом, поверхностно-синтаксическом и глубинно-синтаксическом. В действительности существует еще нулевой уровень основного текста, где всем элементам (слова, числа, знаки препинания) присваиваются идентификаторы. На рис. 1 изображена связь между уровнями: так, как они аннотируются в PDT 2.0. Это разбор чешского предложения Byl by šel dolesa (Шел бы в лес), содержащее глагол «идти» в сослагательном наклонении в прошедшем времени (Byl by šel) и опечатку (dolesa «в лес» написано слитно, должно быть do lesa).

 

Рис. 1 Связи уровней аннотации в PDT 2.0

 

2.1 Морфологический уровень.

Здесь словоупотреблениям нулевого уровня присваивается некоторое количество атрибутов, из которых самыми важными являются морфологические: lemma и tag. Атрибут lemma представляет собой имя лексемы данного слова и однозначно соотносит его с морфологическим словарем. Атрибут tag содержит 15 позиций морфологической информации (часть речи и все актуальные для нее морфологические характеристики, напр. NNIS2-----A----). Пример аннотации на морфологическом уровне рассмотрен ниже.

Аннотация морфологического уровня проводилась группой из семи аннотаторов, и была разделена на два этапа. На первом этапе каждый текст был предварительно аннотирован морфологическим анализатором. Затем два аннотатора, независимо друг от друга,  проконтролировали правильность атрибутов lemma и tag. На втором этапе все несоответствия между этими двумя аннотаторами были разрешены третьим, контролирующим аннотатором. После окончания аннотирования поверхностно-синтаксического уровня была проведена еще одна ревизия, для проверки соответствия предлогов и падежей существительных, именного согласования и т.д.

 

2.2 Поверхностно-синтаксический уровень (ПСУ)

Здесь структура предложения представлена в виде ориентированного дерева с помеченными связями (ребрами) и узлами. Каждому элементу морфологического уровня соответствует узел поверхностно-синтаксического дерева, отношения между элементами выражены связывающими их ребрами. Тип отношения определяется типом ребра – большинство ребер отражают отношение зависимости, но есть и другие отношения, напр. координация, аппозиция, знаки препинания и др.

Каждому узлу приписывается шесть атрибутов. Атрибут id содержит однозначный в рамках PDT 2.0 идентификатор узла, который связывает его с глубинно-синтаксическим уровнем. Линейный порядок узлов отражается в атрибуте ord. Функция ребра по техническим причинам отображается в атрибуте afun у нижнего узла. Атрибуты is_member и is_parenthesis_root используются для указания на сочинительные конструкции и выражения в скобках. Атрибут m.rf связывает узел с соответствующим элементом на морфологическом уровне. Пример аннотации на ПСУ рассмотрен ниже.

            Все данные ПСУ аннотировались группой из шести аннотаторов – сначала вручную, затем на основе предварительной автоматической аннотации. По окончании аннотирования проводились всевозможные контрольные тесты, найденные ошибки были вручную проверены и исправлены.

 

2.3 Глубинно-синтаксический (тектограмматический) уровень (ГСУ)

            Структура ГСУ – дерево, где каждому узлу, кроме технического корня, присвоено 39 атрибутов. В зависимости от типа узла (атрибут nodetype) заполняется определенное подмножество этих атрибутов. Наибольший интерес представляют следующие атрибуты:

            Атрибут functor – описывает тип ребра, ведущего от узла к его предку – зависимость или другое техническое отношение. Значениями этого атрибута могут быть функторы для актантов (АСТ – агенс, РАТ – пациенс, ADDR – адресат и др.), функторы корней независимых клауз (PRED – главный предикат предложения, DENOM – именной корень клаузы, PAR – корень выражения в скобках), функторы для корней сочинительных конструкций (СОNJ – сочинительная конструкция, ADVS – противительная конструкция и др.), функторы места (LOC - где, DIR1 - откуда, DIR2 – каким путем, DIR3 - куда) и времени (TWHEN - когда, TTILL – до какого времени, TSIN – с какого времени, TPAR – в течение какого времени  и др.) и другие. Всего на данный момент для аннотирования чешского языка используется 67 функторов, распределенных на 12 групп.

Атрибут t_lemma содержит имя лексемы на глубинно-синтаксическом уровне.

16 атрибутов используется для описания грамматических свойств узла. Эти атрибуты обозначены префиксом gram (напр., атрибут gram/sempos – семантическая часть речи, имеющий далее 19 значений: n.denot  -  семантическое существительное, adj.denot - семантическое прилагательное, v - глагол и т.д.; атрибут gram/verbmod содержит информацию о модальности предложения и т.п.)

Так как тектограмматическая структура, также как и ПСУ, основана на синтаксических зависимостях, для конвертирования поверхностно-синтаксических деревьев в предварительные глубинно-синтаксические были использованы автоматические методы. Все полученные таким образом деревья были затем вручную обработаны аннотаторами, которые дополнили большое количество недостающей информации и исправили ошибки.

 

2.3.1 Словарь моделей управления VALLEX. На ГСУ предикатам присваивается модель управления из связанного с TrEd-ом словаря валентностей VALLEX. Это электронный словарь, содержащий примерно 2730 лексем. Словарная статья включает как минимум одну модель управления с указанием обязательных актантов и их возможных синтаксических реализаций, а также с примерами их употребления. Например, представление глагола rozumět (понимать) в pdf-версии словаря выглядит так:

При аннотировании ГСУ модель управления должна быть присвоена глаголам и отглагольным прилагательным на -ní (типа koupaní - купание) и –tí (mýtí - мытье). Предикативам – представителям других частей речи модель управления пока последовательно не присваивается.

 

Помимо грамматической структуры зависимостей, на тектограмматическом уровне имеется также информация об актуальном членении предложений и о кореференции, которая аннотировалась отдельно.

 

2.3.2 Актуальное членение. Аннотирация актуального членения основана на двух традиционных чешских концепциях: В. Матезиуса о теме-реме и контекстной связанности и Я. Фирбаса о функциональной перспективе предложения. В аннотации PDT 2.0 фиксируется контекстная связанность (данность, известность) узлов и функциональная перспектива предложения. Информация о тематических и рематических блоках должна автоматически высчитываться на основе этих данных. Контекстная связанность представлена значениями атрибута tfa (topic-focus articulation) – t (данное), f (новое) и c (контраст) и аннотируется вручную, отдельно для каждого узла. Атрибут deepord используется для обозначения глубинного порядка узлов, основанного на функциональной перспективе предложения. Таким образом, в глубинно-синтаксическом представлении порядок узлов слева направо обозначает степень их функциональной динамичности – от наименее к наиболее динамичному элементу.

 

2.3.3 Кореференция. В аннотации PDT 2.0 кореференция делится на грамматическую и текстовую. Другие случаи кореференции, такие как экзофорическая отсылка и отсылка к двум и более предложениям, рассматриваются отдельно. В качестве антецедента может выступать терминальный узел дерева, поддерево (отсылка на корень поддерева) или несколько поддеревьев (отсылка на корневые узлы этих поддеревьев)

В случае грамматической кореференции антецедент высчитывается на основании грамматических правил языка, к ней относится кореференция возвратных местоимений (в чешском языке возвратное местоимение – всегда отдельная клитика), относительных местоимений (напр. человек, который пьет; в городе, где мне так понравилось и др.) и др. Грамматическая кореференция практически никогда не переходит границ предложения, ее всегда можно представить как отсылку одного узла к другому, следовательно ее аннотирование легко автоматизируется.

Текстовая кореференция аннотируется в PDT 2.0 только в том случае, если в качестве анафорического члена выступают личные и посессивные местоимения третьего лица, указательное местоимение этот в субстантивной функции и актуальный эллипсис этих местоимений, восстанавливаемый на ГСУ. Текстовая кореференция может легко переходить границы предложения, и ее определение часто зависит от знания контекста, поэтому ее аннотирование проводилось вручную.

Для аннотирования кореференции используется id антецедента, к которому отсылает id узла анафоры. Атрибуты coref_text.rf, и coref_gram.rf содержат id кореферентных узлов соответствующих типов. Атрибут coref_special несет информацию об особых случаях кореференции.

В настоящее время разрабатывается проект расширенного аннотирования кореференции, где текстовая кореференция будет дополнена случаями, когда в качестве анафорического повтора выступают другие части речи (прежде всего существительные – повторение данной ИГ, синонимы, гиперонимы и т.д.), но при этом сохраняется тождество референтов. Кроме того, планируется включить в аннотацию случаи т.наз. bridging anaphora,  где референты антецедента и анафорического «повтора» уже не тождественны, но семантически связаны. Над этой темой сейчас работает автор данного доклада.

 

 

3. Пример предложения, аннотированного на трех уровнях аннотации в PDT 2.0

 

Některé kontury problému se však po oživením Havlovým projevem zdají být jasnější. – Некоторые контуры проблемы однако после оживлением выступления Гавела кажутся понятнее

 

3.1. Нулевой уровень слов:

Některé

kontury

problému

se

však

po

oživením

Havlovým

projevem

zdají

být

jasnější

.

некоторый

adj. masc Npl

контур

noun, masc, Npl

проблема

masc, Gsg

возвр. «ся»

pron.

однако

adv

по

prep

оживление

noun,neutr,

DSg

Гавлов

adj-poss, masc, ISg

выступления

noun, neutr

ISg

кажут(ся)

verb, ind,act, praes.

3Sg

 

быть

inf

ясный

cр.степ.

.

 

3.2. Морфологический уровень

словоформа

лемма

морфологический тег

Některé

některý

PZFP1----------

kontury

kontura

NNFP1-----A----

problému

problém

NNIS2-----A----

se

se_^(zvr._zájmeno/částice)

P7-X4----------

však

však

J^-------------

po

po-1

RR--6----------

oživení

oživení_^(*3it)

NNNS6-----A----

Havlovým

Havlův_;S_^(*3el)

AUIS7M---------

projevem

projev

NNIS7-----A----

zdají

zdát

VB-P---3P-AA---

být

být

Vf--------A----

jasnější

jasný

AAFP1----2A----

.

.

Z:-------------

 

3.3. Поверхностно-синтаксический уровень.

 

3.4. Глубинно-синтаксический (тектограмматический) уровень

 

 

 

 

 

***

В недавнем прошлом проект PDT был дополнен Пражским арабским синтаксически аннотированным корпусом (Prague Arabic Dependency Treebank, http://www.ldc.upenn.edu) и параллельным чешско-английским корпусом (Prague Czech-English Dependency Treebank, http://ufal.mff.cuni.cz/pcedt). Арабский проект подтверждает, что разработанная на чешском языке система может работать и на типологически несходном языке. Синтаксически аннотированный параллельный чешско-английский корпус разрабатывается на основе аннотрирования вручную текстов из журнала Wall Street Journal, которые ранее использовались для корпуса Penn Treebank 3. В настоящее время параллельно аннотируется примерно 21600 предложений на английском языке и их переводы на чешский. Целью проекта является подготовка текстовой базы для обучения компьютера машинному переводу с чешского на английский и обратно.

 

Проект PDT имеет и более далеко идущие планы. Рассматриваются несколько вариантов: пополнение PDT разговорными текстами, детализация имеющейся аннотации (в основном в области аннотации кореференции, информационной структуры и дискурса), аннотация других типологически отличающихся языков, аннотация вручную глубинно-синтаксического уровня на параллельных чешских и английских текстах, разработка новых уровней аннотации и т.д. По большинству из этих проектов уже ведутся разработки.

 

Литература:

1.      Boguslavsky I.,  Grigorieva S., Grigoriev N., Kreidlin L.,  Frid N. Dependency Treebank for Russian: Concept, Tools, Types of Information. // In Proceedings of the 18th conference on Computational linguistics, Saarbrücken, Germany, 2000.

2.      Čmejrek M., Cuřín J., Havelka J., Hajič J., Kuboň V. Prague Czech-English Dependecy Treebank: Syntactically Annotated Resources for Machine Translation, In 4th International Conference on Language Resources and Evaluation, Lisbon, Portugal. Доступно на http://ufal.mff.cuni.cz/pcedt/doc/papers/lrec2004_pcedt.pdf. 2004.

3.      Hajič J., Hajičová E., Hlaváčová J., Klimeš V., Mírovský J., Pajas P., Štěpánek J., Vidová-Hladká B., Žabokrtský Z. PDT 2.0 – Guide. UFAL & CKL, 2006  Доступно на http://ufal.mff.cuni.cz/pdt2.0/

4.      Mikulova M. и кол. Anotace na tektogramatické rovině Pražského závislostního korpusu. Anotátorská příručka Institute of formal and applied linguistics, Charles University, Prague, 2006.

5.      Nědolužko A., Zpráva  k anotování  rozšířené  textové  koreference  a  bridging  vztahů v Pražském  závislostním  korpusu.  (Report  about  the  annotation  of  the  extended  text-coreference  and  bridging  relations  in  Prague  Dependency  Treebank.).  Technical  report. Institute of formal and applied linguistics, Charles University, Prague. 2007

6.      Žabokrtský, Z.; Lopatková, M.: Valency Frames of Czech Verbs in VALLEX 1.0. // In Frontiers in Corpus Annotation. Proceedings of the Workshop of the HLT/NAACL Conference, pp. 70--77. 2004