Соревнование по распознаванию сгенерированных текстов
Поздравляем участников с окончанием соревнования RuATD!
В бинарном треке приняло участие 30 команд, из которых 12 команд преодолели baseline (на основе BERT). В треке с мультиклассовой классификацией приняло участие 8 команд, 4 преодолело BERT baseline.
Ниже представлена вершина лидербордов по двум трекам. Полные лидерборды можно найти в Kaggle.
# |
User |
Binary Task Score |
# |
User |
Multi Task Score |
|
1 |
MSU |
0.82995 |
1 |
Posokhov Pavel |
0.65035 |
|
2 |
Igor |
0.82725 |
2 |
Yixuan Weng |
0.64731 | |
3 |
Orzhan |
0.82629 |
3 |
Orzhan |
0.64573 |
Kaggle: мультиклассовая постановка
Основные даты
- 17 января 2022 – публикация данных, открытие платформ тестирования
- 7 марта 2022, 9 утра (Мск) – закрытие тестирования
- 8 марта 2022 - предварительное подведение итогов
- 9-13 марта 2022 - официальное подведение итогов
- 25 марта 23:59 (Мск) 2022 – завершаем прием статей
Мотивация
Современные модели генерации текстов показывают впечатляющие результаты: они могут сочинить стихотворение, изменить стиль текстов и даже написать осмысленное эссе на свободную тематику. Однако такие модели могут быть использованы в злонамеренных целях, например, для генерации фейковых новостей, отзывов на продукты и политического контента. Так, возникает новая задача: научиться отличать тексты, написанные человеком, от текстов, сгенерированных нейросетевыми языковыми моделями.
Постановка задачи
Соревнование RuATD (Russian Artificial Text Detection) посвящено задаче автоматического распознавания сгенерированных текстов и предлагает участникам рассмотреть две постановки:
- Определить, был ли текст сгенерирован автоматически или написан человеком (бинарная классификация);
- Определить, какая именно модель была использована для генерации данного текста (мультиклассовая классификация).