Одним из важнейших направлений конференции является разработка и апробирование методик верификации результатов лингвистических исследований и сравнительных оценок эффективности систем анализа текстов на русском языке. Цель этой работы – разработка единых принципов «evaluation»: доказательства эффективности и адекватности полученных результатов. Такие доказательства возможно получить только в результате проведения серьезных тестов в соответствии с разработанными методиками.

В рамках специального направления «Диалога», которое называется Dialogue Evaluation, ежегодно проводятся сравнительные тестирования систем компьютерного анализа, решающих те или иные практические задачи. Результаты тестирований обсуждаются на конференции, отчеты организаторов и участников вы можете найти ниже.

Dialogue Evaluation 2020

В этом году мы приглашаем к участию в следующих соревнованиях:

1. Дорожка по построению таксономии 

2. GramEval

3. RuREBus

О соревновании:

Мы рады сообщить Вам, что в 2019-2020 году впервые будет проходить соревнование по автоматическому предсказанию гиперонимов для русского языка в рамках 26-й Международной конференции DIALOGUE 2020: https://competitions.codalab.org/competitions/22168.

Предсказание отношений типа "являться" (банан -- фрукт, кошка -- животное), т.е. отношений гиперонимии, является одним из необходимых  этапов семантического анализа для решения многих задач обработки естественного языка. Цель данного соревнования -- автоматически обогатить существующую таксономию (ruWordNet) новыми словами, связав их отношениями гиперонимии с существующими.

Для английского языка задача поиска гиперонимов и автоматическому расширению тезаурусов уже не раз рассматривалась в рамках соревнований SemEval (SemEval-2018 task 9: Hypernym discovery, Semeval-2016 task 13: Taxonomy extraction evaluation, SemEval 2015 task 17), для русского языка данная задача ставится впервые. 

Более того, условия данного соревнования более приближены к реальности, так как участникам на входе даны только сами слова без определений, а также контексты, в которых они встречаются.

Данную задачу можно сформулировать следующим образом: для слова, не включенного в тезаурус, необходимо предсказать ранжированный список из 10 синсетов, которые с наибольшей вероятностью могли бы быть гиперонимами для данного слова (гиперонимов может быть больше, чем 1). 

Мы полагаем, что современные контекстуальные векторные представления слов, такие как ELMo и BERT, будут особенно эффективны в при поиске гиперонимов, и будем рады увидеть решения, использующие данные подходы (или любые другие) в нашем соревновании. В качестве базовых решений мы предоставим реализации, основанные на дистрибутивной семантике и нейросетевых языковых моделях.

Важные даты:

  • Начало соревнования: 15 декабря 2019.
  • Публикация тренировочных данных: 15 декабря 2019.
  • Публикация тестовых данных: 31 января 2020.
  • Последний день для отправки решений:  14 февраля 2020 29 февраля 2020
  • Результаты дорожки: 1 марта 2020.

Контакты для связи с организаторами:

О соревновании:

Приглашаем принять участие в соревновании GramEval 2020. 

Участникам предстоит построить системы, определяющие:

  • Морфологические признаки слова
  • Лемму слова
  • Синтаксические связи в предложении (зависимости) 

Мы считаем, что многоуровневые структуры языка нужно размечать совместно, иначе ошибки в одном уровне разметки приведут к ошибкам в следующем. Существующие пайплайны “токенизация - морфология - лемматизация - синтаксис” накапливают ошибки на каждом этапе.

Мы предлагаем участникам соревнования попробовать построить системы, осуществляющие полную морфологическую и синтаксическую разметку с лемматизацией в рамках Universal Dependencies. 

Данные: 

На нашем GitHub будут выложены данные с полной аннотацией - результат работы нашей команды аннотаторов, а также дополнительные "грязные" данные для предобучения.

https://github.com/dialogue-evaluation/GramEval2020

Обучающие данные включают тексты новостей, социальных сетей, художественной литературы и non-fiction, деловые, поэзию и исторические тексты 17 века.

Все данные разделены на 2 части - train и dev set. Разрешается тренироваться на всех данных (train + dev), но для удобства участников выделен набор dev для предварительной оценки модели.

Процедура тестирования будет включать тестовые “золотые” размеченные тексты во многих жанрах и из разных источников на русском языке. Мы приветствуем системы, устойчиво качественно обрабатывающие все многообразие текстов русского языка (в том числе, тексты, отличающиеся по стилистике, сфере употребления и жанру, региону, времени создания).

Формат данных:

Разметка в стандарте Universal Dependencies, в формате CONLL-U.

Будут опубликованы скрипты для оценки качества работы моделей для каждой задачи - мы просим всех участников использовать их для промежуточной оценки своих моделей.

Baselines: 

  • RnnMorph (победитель MorphoRuEval 2017)
  • Udpipe (baseline CONLL 2018), 
  • NLP Turku (лучшая лемматизация для русского языка CONLL 2018)

Ссылки на решения:

Даты соревнования:

  • 1 февраля 2019 - релиз золотых и дополнительных «грязных» обучающих данных, полученных с помощью автоматической разметки
  • 15 февраля 2019 - тестирование систем 
  • 22 февраля 2019 - финальная подача систем
  • 5 марта 2019 - объявление результатов

Контакты для связи с организаторами:

О соревновании:

Приглашаем принять участие в RuREBus (Russian Relation Extraction for Business) – соревновании по извлечению отношений(фактов) в постановке, приближенной к индустриальным задачам.

Мотивация:

Извлечение отношений – одна из самых востребованных бизнесом задач. Существует несколько стандартных корпусов для задачи извлечения отношений на английском языке. Однако, все они достаточно далеки от типичной бизнес-постановки задачи по следующим причинам.

Во-первых, отношения выделены в тексте достаточно плотно (напротив, в бизнес-задачах часто есть 1-2 вхождения отношений на достаточно объемные тексты). Во-вторых, в стандартных корпусах определены отношения бытового и повседневного характера (отношение работы персоны в компании, купли/продажи, владения, родственные отношения, факты рождения и смерти и т. п.), тогда, как в бизнес-задачах обычно требуется выделять отношения, имеющие специфическую природу, связанную с тематикой предметной области.

Целью дорожки является сравнение методов извлечения отношений на русском языке в постановке, приближенной к практике. Для этого предлагается использовать корпус Минэкономразвития (МЭР) (около 280 млн. токенов).

Корпус представляет собой различные отчеты региональных органов о проделанной работе и запланированных мероприятиях, а также прогнозы и планы на будущее. Некоторое подмножество корпуса будет размечено специальными именованными сущностями (8 классов) и семантическими отношениями на них (11 классов). Всего хотелось бы получить как минимум несколько сотен размеченных текстов.

Эскиз инструкции для разметчиков можно прочесть здесь (мелкие детали могут уточняться).

Задачи:

Соревнование будет проводиться по трем задачам:

Выделение именованных сущностей (named entity recognition, NER). Метрика оценивания - микро F-мера с точным совпадением спана сущности.

Извлечение семантических отношений между сущностями (relation extraction, RE). В данной задаче заранее сущности заданы в тексте и требуется установить отношения между ними. Метрика оценивания -- микро F-мера.

End-to-end извлечение семантических отношений. В данной задаче заранее сущности не заданы, требуется выделить сущности и отношения между ними. Метрика совпадает с п. 2.

Скрипты для оценки качества доступны здесь.

Данные:

Участникам будут выданы следующие файлы:

(i) Обучающая выборка, размеченная вручную сущностями и отношениями; первая часть обучающей выборки доступна здесь.

(ii) Большая (порядка 280 миллионов токенов) неразмеченная коллекция текстов МЭР (что, опять же, приближает нас к бизнес-постановке, когда неразмеченные тексты зачастую есть в изобилии). Коллекция неразмеченных текстов доступна здесь.

(iii) Тестовая выборка. Оценка качества автоматических моделей будет происходить на тестовой выборке.

Важно отметить, что оргкомитет принципиально не будет запрещать участникам самим размечать дополнительные тексты. Дорожка позиционируется как симуляция реальной рабочей задачи, и, если для улучшения решения задачи эффективнее потратить время на разметку текстов, а не на улучшение модели, размечать тексты – валидная стратегия. Если участники прибегнут к дополнительной разметке, они будут должны предупредить оргкомитет и прислать размеченные ими тексты.

Дополнительный смысл выдачи участникам большого корпуса неразмеченных текстов из одной и той же предметной области основан на следующем предположении: мы хотим позволить участникам дорожки самостоятельно предобучить языковые модели на неразмеченных данных. Мы хотим проверить гипотезу: верно ли, что такие языковые модели будут показывать лучшие результаты, по сравнению с моделями, предобученными на текстах из других предметных областей.

Важные даты:

Состав оргкомитета и контакты

Иван Смуров, Виталий Иванин, ABBYY: ivan.smurov@abbyy.com, vitalii.ivanin@abbyy.com

Елена Тутубалина, Казанский федеральный университет: tlenusik@gmail.com

Владимир Иванов, Иннополис: nomemm@gmail.com

Вероника Саркисян, Екатерина Артемова / НУЛ ММВП, НИУ ВШЭ: impecopeco@gmail.com, Echernyak@hse.ru

Антон Емельянов, ПАО Сбербанк: login-const@mail.ru

Татьяна Батура, Новосибирский Государственный Университет: tatiana.v.batura@gmail.com

Объявления о ходе соревнования будут делаться в нашем телеграм-канале. Все вопросы о соревновании можно задать в наш чат в телеграме.