Dialogue Evaluation 2023
SEMarkup
Соревнование по автоматической семантической разметке
Задача
Участникам предлагается два трека:
- создать решение, которое будет производить семантическую разметку с использованием морфосинтаксической разметки;
- создать решение, которое будет производить одновременно морфологическую, синтаксическую и семантическую разметку.
Описание и данные
Датасет, на основе которого необходимо выполнить задачу, собран из новостных текстов с портала NewsRU, размечен автоматически системой Compreno, проверен вручную и автоматически сконвертирован в формат UD (Universal Dependencies) с последующей частичной вычиткой. Уровней разметки датасета три:
- морфология (UD);
- синтаксис (UD);
- семантика (глубинные позиции и обобщённые семантические классы Compreno, адаптированные под формат разметки UD).
Семантических парсеров, заточенных под данные русского языка, до сих пор не существует. Наличие морфосинтаксической разметки в обучающем датасете позволит учитывать эти данные и в перспективе выяснить взаимосвязь разных уровней разметки.
Одновременная разметка сразу трёх уровней языка — новый, более сложный challenge для участников по сравнению с прошлыми соревнованиями (GramEval-2020, где было два уровня языка — морфология и синтаксис).
График проведения соревнования:
- 20 января — публикация train и dev датасетов, тестовых данных;
- 11 марта — последний день для отправки решений;
- 18 марта — результаты соревнования;
- 1 апреля — дедлайн подачи статьи.