Dialogue Evaluation 2023

SEMarkup

Соревнование по автоматической семантической разметке


График проведения соревнования:

  • 20 января — публикация train датасета;
  • 6 февраля — публикация тестовых данных и страниц соревнования на CodaLab;
  • 28 марта — дедлайн отправки решений, публикация результатов;
  • 8 апреля — дедлайн подачи статьи.

Задача

Участникам предлагается два трека:

  • создать решение, которое будет производить семантическую разметку с использованием морфосинтаксической разметки;
  • создать решение, которое будет производить одновременно морфологическую, синтаксическую и семантическую разметку.

Описание и данные

Датасет, на основе которого необходимо выполнить задачу, собран из новостных текстов с портала NewsRU, размечен автоматически системой Compreno, проверен вручную и автоматически сконвертирован в формат UD (Universal Dependencies) с последующей частичной вычиткой. Уровней разметки датасета три:

  • морфология (UD);
  • синтаксис (UD);
  • семантика (глубинные позиции и обобщённые семантические классы Compreno, адаптированные под формат разметки UD).

Семантических парсеров, заточенных под данные русского языка, до сих пор не существует. Наличие морфосинтаксической разметки в обучающем датасете позволит учитывать эти данные и в перспективе выяснить взаимосвязь разных уровней разметки.

Одновременная разметка сразу трёх уровней языка — новый, более сложный challenge для участников по сравнению с прошлыми соревнованиями (GramEval-2020, где было два уровня языка — морфология и синтаксис).