Соревнование по автоматической детоксификации текстов
Соревнование RUSSE Detoxification 2022 завершено!
Участники соревнования могут подать статью на конференцию Диалог в сборник "Компьютерная лингвистика и интеллектуальные технологии" с описанием решения и анализом результатов. Дедлайн подачи статей по треку Dialogue Evaluation: 25 марта 23:59. Пожалуйста, прочитайте правила публикации для трека Dialogue Evaluation.
Победителем соревнования RUSSE Detox согласно ручной оценке (и единственная команда, преодолевшая бейзлайн) - команда SomethingAwful. В лидерборде по автоматическим оценкам - лидирует команда gleb_shnshn. В финальной тестовой фазе соревнования поучаствовало 10 команд:
- SomethingAwful
- FRC CSC RAS
- Mindful Squirrel
- team_ruprompts
- orzhan
- Barracudas
- king_menin
- NSU team
- anzak
- gleb_shnshn
Все результаты ручной и автоматической оценки можно посмотреть здесь.
Соревнование на CodaLab с лидербордом
Группа в телеграме (объявления, новости)
Группа в телеграме для дискуссий
Основные даты
- До 31 января: уже открыта фаза Development, где вы можете тестироваться на dev сете
- 31 января - 14 февраля: будет выложен test сет, у которого уже не будет нейтральных референсов. На отправку решения на этом сете и выбора лучшей модели будет дано 2 недели.
- Лучшие модели, выбранные участниками, буду оценены вручную. Финальные результаты ручной оценки будут выложены на сайте соревнования 28 февраля.
- 25 марта 23:59 (Мск) 2022 – завершаем прием статей
Мотивация
Мы, лаборатория SkoltechNLP, cовместно с МТС АИ и SberDevices представляем RUSSE-2022 Russian Text Detoxification Based on Parallel Corpora – первое соревнование по автоматической детоксификации русскоязычных текстов для борьбы с оскорбительной речью; в рамках соревнования впервые создаётся параллельный корпус для решения задачи. Системы детоксификации текстов могут быть использованы, например, для предварительной обработки ответов в социальных сетях и фильтрации реплик в чат-ботах, для проведения аналитики и гуманитарных исследований. Кроме первого в своем роде параллельного корпуса токсичных / детоксифицированных предложений для русского языка, мы также предоставляем базовые подходы к решению задачи детоксификации, а также комплексный набор метрик оценки результатов детоксификации, основанных на лучших научных практиках переноса стиля.
Постановка задачи
К участию приглашаются все, кто заинтересован в детоксификации предложений: на входе есть токсичный текст, его надо перефразировать в нетоксичный. Участникам разрешается использовать любые дополнительные датасеты или модели, при условии, что они есть в открытом доступе. Однако мы просим участников указать все дополнительные ресурсы, используемые в рамках соревнования.
Подробности на сайте.