ПАТТЕРНЫ ЭМОЦИОНАЛЬНЫХ КОММУНИКАТИВНЫХ РЕАКЦИЙ: ПРОБЛЕМЫ СОЗДАНИЯ КОРПУСА И ПЕРЕНОС НА КОМПЬЮТЕРНЫХ АГЕНТОВ

 

PATTERNS OF EMOTIONAL REACTIONS IN COMMUNICATION: PROBLEMS OF CORPORA STUDIES AND APPLICATION TO COMPUTER AGENTS

 

Котов А. А. (kotov@harpia.ru)

Российский государственный гуманитарный университет

 

В докладе приводится архитектура компьютерных агентов, которые имитируют эмоциональное речевое поведение, в частности, изменения настроения во времени. В мультимодальном корпусе (запись экзаменов) мы рассматриваем последовательности контрастных эмоциональных реакций и возможность перенести эти реакции на компьютерных агентов.

 

Развитие робототехники и компьютерных интерфейсов предъявляет новые требования к исследованию коммуникативного взаимодействия. Роботы или виртуальные компьютерные персонажи должны иметь возможность (а) успешно распознавать намерения и эмоциональное состояние человека-собеседника и (б) при необходимости – адекватно имитировать речевые и невербальные реакции человека в диалоге. Прежде всего, интерес представляют эмоциональные коммуникативные реакции и, в целом, поведение в эмоциональной ситуации. Одна из важных проблем в этой области – это анализ паттернов эмоциональных реакций, распределённых во времени. Человек может «сложно» переживать негативное событие: внутренне расстраиваясь, ругаясь на собеседника, а затем – «приходя в себя» и успокаиваясь. То же относится и к некоторым позитивным реакциям. «Узнавание» таких паттернов в поведении собеседника позволяет нам судить о его эмоциях и характере – именно поэтому данное явление так важно для исследования в связи с разработкой компьютерных агентов и бытовых роботов.

Для детального анализа коммуникативного поведения человека создаются мультимедийные корпуса: поведение актёров или реальных людей записывается на одну или несколько видеокамер и сопровождается лингвистической разметкой. Паттерны поведения, выделенные при анализе этих корпусов, могут переноситься на компьютерных агентов [Rehmand, Andre, 2008], и многие из этих проектов специально ориентированы на дальнейшее применение в области робототехники и создания интерфейсов: здесь возможны разные методологические подходы.

Один подход состоит в том, чтобы предоставить людям возможность взаимодействовать с роботом или друг с другом и автоматически выявлять повторяющиеся коммуникативные паттерны [Campbell, 2008] – в этом случае мы рассматриваем все поступающие данные как «корпус» и автоматически выделяем типы явлений («ярлыки» разметки). Противоположный подход состоит в том, чтобы задать типы явлений, которые должны быть представлены в базе – по этому принципу создаются мультимодальные корпуса эмоций: актёров просят произнести текст с некоторой эмоцией из списка, заданного экспериментатором [Bänziger, Scherer, 2007]. Центральное положение занимают проекты, в которых испытуемые или информанты сняты в реальных или экспериментальных ситуациях, например, корпус HUMAINE [Douglas-Cowie, Cowie et al., 2007]. Достаточно подробный анализ современных проектов мультимодальных корпусов приводится в работах [Cowie, Douglas-Cowie et al., 2005; Martin, Paggio et al., 2008; López, Cearreta et al., 2009]. Кроме того, список эмоциональных мультимодальных баз данных приведён на странице http://emotion-research.net/wiki/Databases

В нашем случае – для исследования паттернов эмоциональных коммуникативных реакций мы собрали видеозаписи студентов, устно сдающих различные задания в рамках зачётов или экзаменов. Студенты были предупреждены о видеосъемке, но (как видно по некоторым признакам) достаточно быстро переставали обращать внимание на камеру.

Сдача экзамена – это сравнительно редкая ситуация; в жизни каждого человека она наступает не более нескольких десятков раз. Экзамен представляет из себя особый ритуал, элементы которого почти не встречаются в жизни вне учебных заведений. Вместе с тем, экзамен – это ситуация вопросно-ответного взаимодействия, в которой одна сторона даёт задание, а другая должна его выполнить или иным образом показать себя с наилучшей стороны. С этой точки зрения – ситуация экзамена похожа на типовую ситуацию, в которой должен будет действовать интерфейс или бытовой робот. Кроме того, экзамен – это очень эмоциональная ситуация, представляющая конфликт между сильнейшей мотивацией и строгими социальными ограничениями. В этой ситуации мы ожидаем увидеть характерные паттерны проявления эмоциональных состояний. Мы благодарим всех студентов, согласившихся на видеосъемку для создания корпуса!

 

1. Модель речевого поведения эмоциональных компьютерных агентов

Мы разрабатываем модель эмоционального агента, которая, в частности, реализована в виде программы – прототипа для «анимирования» компьютерных персонажей (компьютерных агентов – Рис. 1) [Котов, 2008]. Компьютерный агент должен реагировать на события внешнего мира или обращённые к нему высказывания, меняя свою реакцию в зависимости от типа события и от своего «настроения». Так, агент должен реагировать негативно: (а) если само событие – плохое, или (б) если агент находится в плохом настроении. Агент принимает на вход предикативные структуры: набор из предиката и некоторого количества актантов. Предикат и актанты – это множества признаков, их состав и значение переменны и задаются входящим событием или содержанием поступившего текста. Каждая предикативная структура обрабатывается с помощью набора сценариев – отношений типа «если-то». Сценарии используются для имитации реакций агента: для негативных или позитивных эмоциональных реакций используются д-сценарии, для «рациональных» реакций – р-сценарии. Каждый сценарий обладает переменной активизацией – входящая предикативная структура активизирует в разной степени все сценарии; на активизацию сценариев также влияет текущее «настроение» агента. Сценарий с максимальной активизацией формирует речевой и поведенческий выход модели: агент произносит высказывания, связанные с этим сценарием, и демонстрирует заложенный в базу жест.

 

Рис. 1. Имитация речевого поведения агента В с переключениями в коммуникации

Мы имитируем речевое поведение агента B в ситуации, когда его только что ‘стукнул’ агент С. Агент B переживает несколько коротких состояний (m1m3), при этом он думает что-то «про себя», обращается к агенту C или к присутствующему при этом агенту А.

 

 

Рис. 2. Устройство эмоционального агента, имитирующего речевую эмоциональную динамику во времени

Входящее событие сравнивается с посылками сценариев и активизирует сценарии, а также связанные с ними микросостояния. Здесь активны оказались микросостояния А-C-B, агент будет переживать их последовательно, что сформирует следующий речевой выход: Я всё испортил! Хочется сквозь землю провалиться! <пауза> Извини, пожалуйста! <пауза> Надо это как-то исправить! Я обязательно что-нибудь придумаю!

 

Агент может не только отвечать на событие одним высказыванием, но и имитировать изменения в настроении и речи, происходящие в течение 10-40 секунд после события: если мы ‘стукнем’ агента, он будет сначала расстраиваться и ругаться, потом может начать винить себя за невнимательность и, наконец, сможет перейти к «рациональному рассуждению» о том, как избежать подобных ситуаций (имитируется не сам процесс рационального рассуждения, а только характерные речевые реакции). При этом агент как бы «испытывает сложное переживание» и проходит через несколько коротких микросостояний, характеризуемых некоторой эмоцией и некоторым единым способом выражения (Рис. 2). Каждое микросостояние связано со множеством сценариев. Если микросостояние активно, агент предпочитает реагировать с помощью этих сценариев. Микросостояния могут активизироваться входящими событиями (через связанные с ними сценарии), причём одно событие может в разной степени активизировать несколько микросостояний. После этого агент начинает реагировать на событие, перебирая несколько самых активных микросостояний, начиная с большего по степени уменьшения.

«Неприемлемые» высказывания могут подавляться модулем фильтрации. Если агент не может прямо выразить в речи выбранные фразы, он может переключаться в коммуникации (обращаться к другому собеседнику) или заменять подавленные высказывания лицемерием или иронией. При «иронии» агент выбирает высказывания, характерные для сценария с наибольшей активизацией и с противоположным микросостоянием – и сопровождает их «смайликом». Если мы ‘стукнем’ агента, он может подавить ответные ругательства и с сарказмом ответить «Хорошо, что Вы обратили на меня внимание J». При этом агент использует выход позитивного д-сценария ВНИМАНИЕ, который в данной ситуации получает сравнительно слабую активизацию (больше остальных позитивных сценариев, но меньше многих негативных).

Одна из главных задач этого подхода состоит в том, чтобы сделать последовательности коммуникативных реакций агента максимально естественными. Как видно из архитектуры агента – последовательности его реакций не являются фиксированными: микросостояния могут получать разную активизацию и выстраиваться в разном порядке. Однако, пополняя базы жестов, высказываний и других способов реагирования, а также настраивая состав и чувствительность микросостояний, мы можем приблизиться к адекватной картине, когда в эмоциональной ситуации агент будет внешне демонстрировать правдоподобную картину человеческих переживаний. Для этого необходимо исследовать паттерны эмоционального коммуникативного реагирования на реальных случаях поведения людей в эмоциональных ситуациях.

Для описания эмоциональных высказываний агентов (но не для разметки корпуса) мы используем типологию коммуникативных целей, схожую с типологией целей, предложенных Р. Шенком для анализа рассказов историй в дружеских компаниях [Schank, 2000].

0-цель («ноль-цель») соответствует высказываниям, вызванным эмоциональным состоянием и плохо поддающимся контролю, например, это ругательства и возгласы радости (эта цель отсутствует в исходной типологии Шенка).

Я-цель соответствует высказываниям, которые вызваны эмоциональным состоянием говорящего, причём говорящий намерен получить дальнейшее удовлетворение, привлекая внимание адресатов. Говорящий может говорить Я очень умный!, потому что он ждёт восхищения адресата, или На улице очень холодно! – потому что он замерз и хочет поделиться эмоционально-значимым событием.

Преследуя ты-цель, говорящий намерен добиться удовлетворения от эффекта на адресата: он может говорить Я очень умный! на собеседовании – чтобы его взяли на работу, или На улице очень холодно! – чтобы заставить адресата остаться дома.

Наконец цель коммуникации вынуждает говорящего к некоторому высказыванию – например, говорящий вынужден ответить на комплимент встречным комплиментом или вынужден что-либо сказать, чтобы оживить увядшую беседу. Эта типология важна для анализа дальнейшего материала.

 

2. Корпус и проблемы описания паттернов эмоциональных коммуникативных реакций

Для анализа паттернов эмоциональных коммуникативных реакций мы собрали корпус видеофрагментов, где студенты различных факультетов РГГУ защищают перед экзаменатором письменные работы или «отвечают» определения терминов по билетам. На данный момент в корпусе находится 236 фрагментов продолжительностью от 2 минут до получаса.

Для разметки видеофрагментов мы используем программу ELAN, разработанную в Институте психолингвистики им. Макса Планка (Неймеген, Нидерланды).[1]

Основным полем для разметки является шкала времени (timeline), на которой можно определить ряд параллельных «дорожек» для разметки речи, жестов и мимики людей в кадре.

Для разметки фрагментов мы используем 14 дорожек; записываются речь основного героя в кадре, речь основного собеседника и других собеседников, жесты и эмоциональные движения, выполняемые головой, глазами, ртом и руками, движения корпусом или изменения позы; 2 дорожки отведены для разметки острот и иронии, 2 – для разметки микросостояний.

Для речи основного героя, жестов, острот и микросостояний мы используем по 2 дорожки – на 1-й дорожке записываются действия/высказывания коммуниканта, а на второй дорожке – фазы этих действий. Для устной речи «фазами» считаются междометия, паузы хезитации (сомнения) и поправки – то есть речевые элементы, нарушающие «нейтральный» плавный характер речи. Для жестов в качестве фаз размечаются паузы при выполнении жеста, «зацикливание», в существенных случаях – фазы экскурсии и рекурсии жеста; для микросостояний и острот – на 2-й дорожке при возможности размечаются составные элементы: конкретные микросостояния или компоненты остроты.

В материале корпуса информанты сталкиваются с различными эмоциональными ситуациями: в первую очередь, это «сложные» вопросы экзаменатора и указания экзаменатора на ошибки в ответе. В этих эмоциональных ситуациях информанты могут демонстрировать различные речевые и поведенческие реакции. При анализе примеров из корпуса нас, в первую очередь, интересовали такие случаи, где информанты в качестве реакции демонстрируют ряд противоположных жестов или речевых реакций. Такие последовательности могут иметь разную природу – они или указывают на сложное выражение одного эмоционального состояния, либо являются следствием быстрой смены эмоциональных состояний (0-цели) или речевых стратегий (ты-цели).

 

2.1. Множественные жесты и действия

Мы ожидали, что в эмоциональной ситуации информанты могут демонстрировать эмоциональный жест, например, хвататься за голову или стучать по столу. Предыдущая версия используемой нами компьютерной модели предоставляла агенту возможность при наступлении некоторого микросостояния продемонстрировать один жест. Тем не менее, в материале корпуса можно найти достаточно много фрагментов, когда говорящий демонстрирует в качестве реакции сразу несколько последовательных жестов, соответствующих одному микросостоянию. Причём множество из этих жестов (или форм поведения) традиционно не рассматривались как формы коммуникативного взаимодействия. Рассмотрим один из наиболее показательных примеров.

(1) А (жен.) отвечает значение термина «антономазия»; до начала этого фрагмента она думает над вопросом 35 секунд; данный фрагмент имеет продолжительность 58 секунд; продолжительность каждого действия в коммуникации размечена в миллисекундах.[2]

[5800] А (прикладывает палец левой руки к крылу носа): Не когда выпадение одного или нескольких звуков?… Например=

[2035] Б: Антономазия?

[1616] А (перекладывает палец к виску): Да, я пытаюсь вспомнить. Б (одновременно с А): Нет.

[1489] Б: Это не выпадение звуков.

[23220] пауза; А, приложив левую руку к голове, смотрит вбок, в билет и потом – вниз.

[2696] А (левой рукой демонстрирует жест, как если бы держала в руке шар): Неправильная грамматическая организация предложения?

[1984] пауза

[1160] Б: Антономазия? Нет.

[1152] А смеётся и откидывается на стуле. Б: Опять не попали.

[1649] А поправляет волосы.

[1144] А пододвигает свой стул ближе к столу.

[1415] А поправляет кофту: повернув руки большими пальцами к адресату, одёргивает кофту вниз по бокам.

[1766] А «потягивается» – подняв и сжав плечи, вытягивает вниз обе руки.

[1274] пауза; А наклоняется к столу и смотрит на билет.

[2400] А поправляет волосы.

[1422] А: У меня есть ещё два варианта.

[2338] А смеётся, двигая при этом корпусом.

[3640] А прикладывает указательный палец левой руки к носу, а большой – к подбородку и продолжает смеяться, раскачиваясь при этом корпусом.

 

По этому примеру видно, что после указания на неверный ответ А поправляет волосы, одежду, двигает стул и меняет положение тела, то есть демонстрирует по меньшей мере шесть различных действий, прежде чем ответить речевым высказыванием. При этом само высказывание является ироничным и сопровождается дальнейшими жестами. Первичный анализ корпуса демонстрирует, что ряд вполне нейтральных жестов обнаруживают тесную связь с эмоциональными ситуациями: некоторые информанты регулярно поправляют одежду (точно как в примере 1), поправляют волосы или слегка облизываются. Например, информант С07-17.7.2008 (жен.) во время защиты письменных работ перед комиссией в течение 9 минут 37 раз слегка высовывает язык, облизывая губы, и 7 раз манипулирует волосами, перемещая заколотый «хвост» на плечо или убирая за спину.

 

2.2. Рудиментарное проявление негативных эмоций и ирония

Агрессия или гнев – это эмоции, неприемлемые на экзамене. Тем не менее, в базе мы обнаружили целый ряд примеров, когда информанты демонстрируют жесты или элементы поведения, соответствующие целому ряду эмоциональных состояний: «агрессии», «гневу», «переживанию боли», «истерическому поведению» или «детскому капризу». Интересно то, что эти жесты имеют не изолированный характер, а организованы в общие синтагмы с речевыми фрагментами и другими жестами, в частности, в большинстве случаев в стадии завершения (рекурсии) они смягчаются улыбкой или переходят в смех.

Поведение, сходное с элементами истерического поведения, представлено в следующем примере:

(2) А (жен.) отвечает значение термина «антономазия»; до этого она 2,5 минуты предлагала разные (неверные) варианты определения или держала паузу.

[2300] А: А не это – «глух» - «глуп»?

[1800] пауза

[1140] Б: Это не антономазия.

[1360] А содрогаясь корпусом и тряся руками откидывается вперёд, смеётся (или демонстрирует дыхательные спазмы): Да что ж такое-то?

[589] А, продолжая смеяться, делает обеими руками такие жесты, как если бы снимала со своей одежды и выбрасывала волосы или нитки.

[2811]  А, продолжая улыбаться, поправляет волосы.

[871] А демонстрирует мимику осуждения: растягивает губы, поднимает брови, расширяет глаза и слегка поворачивает головой в разные стороны.

[6809] пауза; А двигает нижней челюстью, смотрит на билет и на экзаменатора.

[далее А просит разрешить посмотреть, в каком месте списка находится термин]

 

В этом примере высказывание Да что ж такое-то? являлось симптомом эмоционального состояния и преследовало 0-цель. То же самое или сходные высказывания могут использоваться в других контекстах для достижения ты-цели – демонстрируя наш гнев и осуждение (возможно – мнимые), мы стремимся изменить поведение адресата. Рудиментарное проявление такого гнева или осуждения присутствует в следующем примере:

(3) А (жен.) сдаёт определение «метафоры». Фрагмент 26,8 с.

[1121] Б: Приведите пример метафоры какой-нибудь.

[5479] А (поворачивает голову в сторону, взгляд – вверх, поворачивает головой из стороны в сторону как при возмущении или осуждении, говорит еле слышно): Боже мой! <шумно выдыхает>

[801] А (показывает пальцем в сторону собеседника): Давайте лучше=

[1139] Б: На лекции [их] были десятки.

[3180] А (говорит со значительными перепадами тона): Ну да, так не могу сейчас вспомнить!

[1180] Б: А что делать? [У нас ведь –] зачёт!

[5120] А наклоняет голову чуть вбок, прямо смотрит на адресата, демонстрируя осуждающее выражение лица, губы сжаты и несколько растянуты в улыбку; два раза шумно выдыхает (даже сдувая со стола лист бумаги);

[6900] А поворачивает голову вбок и вверх, размышляя над ответом;

[1840] А (поворачивает голову обратно к собеседнику): Какие-нибудь там «смешные зайчики».

 

Мы считаем, что в данном примере присутствует сложное взаимодействие между коммуникативными целями. В результате сложного вопроса информант испытывает эмоциональное состояние и проявляет его в речи – это соответствует 0-цели. Однако информант использует форму выражения, обычно преследующую ты-цель. Очевидно, информант не хочет «призвать адресата к порядку» или «осудить адресата» – то есть ты-цель в данном случае в полной мере не присутствует. Таким образом, переживая эмоциональное состояние и будучи вынужденным его выразить (0‑цель), говорящий выбирает средства, обычно преследующие ты-цель, возможно, поскольку эти формы выражения для говорящего более освоены в других ситуациях.

 

В следующем примере выражение рудиментарной агрессии вызвано 0-целью: коротким эмоциональным состоянием говорящего. Вместе с тем, это выражение носит игровой характер и для него нельзя определить объект агрессии – нельзя однозначно утверждать, что агрессия направлена на собеседника или на самого говорящего.

(4) А (жен.) в очередной раз сдаёт определения терминов. А объясняет различие в типах метафоры – in praesentia и in absentia (по [Дюбуа, Пир et al., 1986]); фрагмент – 22 с.

[660] Б (подтверждая предыдущий фрагмент ответа А): Да.

[5000] А: Ну!!! In praesentia – это когда цель есть, in absentia – это когда [области] цели нет.

[420[3]] Б: Как же [области] цели нет, а перенесение [признаков] есть?

[4289] А (кладёт руки на колени; зажмуривает глаза, выпрямляет корпус, смотрит в сторону, трясётся и фарингально рычит; в рекурсии – подобие улыбки): Опять-опять. Я не знаю!

[4771] А смотрит в билет, чешет затылок, несколько раз пробует начать говорить.

[2480] А (смотрит в билет): Нет, цель-то наверно есть, но она скрытая!

[3019] А пристально смотрит на адресата, ожидая его реакции.

[1321] А (смотрит в билет, повторяет тихо и очень спокойно): Скрытая цель.

 

В этом примере форма выражения агрессии более прототипична, однако информант использует специальные средства, чтобы сделать проявление агрессии «игровым»: он отворачивается от адресата и демонстрирует подобие улыбки. По контексту видно, что информант далее быстро переключается на рациональное рассуждение и даёт верный ответ, то есть в полной мере не испытывает состояние агрессии.

Схожим образом в примерах корпуса информанты имитируют переживания боли или детское капризное поведение. При имитации боли испытуемые сжимают губы, морщат лоб и «скулят», или зажмуриваются и обнажают зубы (иногда – шумно вдыхая сквозь зубы). Информанты отвечают этой формой поведения на сложный вопрос, однако после «имитации боли» следует рациональное рассуждение информанта – он перебирает разные варианты ответа и часто правильно выполняет задание. В одном случае информант демонстрирует имитацию боли в конце интервала размышления (длиной  18 секунд) и непосредственно перед правильным ответом.

При имитации детского каприза информанты «хныкают», что сопровождается резким движением тела – подбородок движется назад (голова опускается), корпус – вперёд, руки – в стороны. Это действие предшествует просьбе: информант просит смягчить задание или сориентировать его в вопросе. Интересно то, что эта форма поведения также сопровождается улыбкой.

По-видимому, эти рудиментарные проявления эмоций обладают двойственной функцией: с одной стороны, говорящий действительно испытывает отрицательную эмоцию (некоторое подобие агрессии или боли), с другой стороны, выбирая способ выражения этой эмоции, говорящий маркирует свой жест улыбкой – это не даёт собеседнику права обижаться и отвечать на «несерьёзное» внешнее проявление эмоции, но при этом сравнительно хорошо обозначает внутреннее состояние говорящего.

Применительно к архитектуре агентов это означает, что даже при рациональной реакции на инструкцию человека, агент может достаточно свободно выражать негативные эмоции (точнее – использовать средства выражения для негативных сценариев, получивших максимальную активизацию при анализе входа), при этом улыбаясь или применяя другие маркеры иронии или игрового поведения. Проявления «крайних» форм эмоций, смягчённые улыбкой, служат для того, чтобы показать более спокойную реальную эмоцию говорящего.

 

2.3. Координация стратегий воздействия при достижении ты-цели

В ситуации экзамена информант может предпринимать множество рациональных (или ритуальных) действий: просить ответить на вопросы билета в другом порядке, просить ещё об одной попытке сдать другой билет (в нашем случае это допускалось процедурой), выдвигать претензии к экзаменатору в некорректном ведении экзамена и т. д. Эти действия рациональны, но в коммуникации на каждое из них может накладываться разная эмоциональная роль: информант может просить ещё об одной попытке ответить, потому что (а) у него есть право это сделать, и он требует уважать это его право, (б) он очень милый и вызвал симпатию экзаменатора, (в) он плохо себя чувствует и провоцирует снисхождение и т. д. Таким образом, коммуникативная ситуация является двухуровневой: на одном уровне коммуникант обсуждает рациональные шаги, а на другом – предъявляет для себя эмоциональную позицию (маску) в обоснование этих шагов. Такая эмоциональная роль обычно используется для достижения ты-цели: говорящий стремится получить преимущество в эмоциональном взаимодействии, чтобы достичь рациональной цели. Для достижения успеха говорящий может подряд перебирать несколько стратегий воздействия на адресата.

 

(5)        А (жен.) ранее пыталась определить «ассонанс» как «нагнетение гласных» – экзаменатор попросил уточнить ответ. А 78 секунд держит паузу – при этом нагибается над столом, чешет переносицу, прикладывает палец к губам, откидывается на стуле, смотрит по сторонам, потом опять смотрит в билет. Фрагмент 18 с.

Описание поведения; высказывание

Возможная функция

[2314] А (улыбаясь, размахивая одной и двумя руками перед корпусом): Можно я к Вам буквально через пять минут=

эмоц.: А намерена спровоцировать симпатию;

рац.: А намерена договориться ещё раз сдать задание;

 

[1612] А (наклоняется к столу; продолжает размахивать руками, при этом размахивает у висков; иконически демонстрируя собственную неадекватность): =подойду? У меня просто это.

эмоц.: А намерена спровоцировать снисхождение;

рац.: А намерена сгладить негативное впечатление от своей неудачной попытки;

[8580] А (садится ровно, сопровождает свою речь иконическими жестами левой рукой): Я просто хотела с «ассонансом»… просто не «нагнетение», а какое-то другое слово подобрать? Да? Про= Ну, я имею в виду…

А старается действовать рационально;

рац.: А уточняет задание, возможно, пытается сократить задание при следующей попытке ответить;

[4680] А (сидит ровно; двумя руками, повернув ладони к себе делает энергичные махи от корпуса в направлении адресата; говорит «холодным» голосом): В= Всё= В чём… Я просто не совсем понимаю, в чём как бы вопрос?

эмоц./рац.: А выдвигает претензию, обвиняет адресата в неточности задания;

[893] А (наклоняется к столу): <смеётся> Ну, в смысле=

эмоц./рац.: А стремится снизить негативный эффект от своих предшествующих слов;

 

В этом фрагменте видно, что говорящий очень часто меняет стратегию, с помощью которой он пытается воздействовать на адресата – на каждую стратегию приходится в среднем 3,6 секунды времени. Из-за этого речевое поведение может показаться сбивчивыми. Такой пример может демонстрировать более общую ситуацию, когда в арсенале говорящего имеется несколько стратегий достижения успеха в коммуникации, и при неудаче одной стратегии говорящий обращается к следующей стратегии. Однако частая перемена стратегий говорит о том, что этому выбору в данном случае недостаёт координации. При создании компьютерного агента мы можем учитывать эту особенность, заставляя его быстро менять стратегии эмоционального взаимодействия (при ориентации на ты-цель), тем самым имитируя усталость в ситуации напряжения.

 

Заключение

Работа с корпусом позволила сформулировать следующие принципы речевого поведения для реализации в компьютерных агентах.

  1. В результате переживания эмоционального состояния человек может демонстрировать ряд последовательных жестов или движений (прим. 1). Человек может слегка облизываться, поправлять одежду, потягиваться, манипулировать каким-нибудь объектом и т. д. Эти движения вызваны эмоциональным состоянием, но не являются коммуникативными жестами в полном понимании: адресат может их даже не замечать, но в целом, поведение, сформированное набором этих действий, может вызывать у адресата определённое впечатление об эмоциональном состоянии оппонента. Ранее агенты демонстрировали только один жест – этот жест сопровождал фразу или микросостояние. Сейчас в агентов добавлена возможность демонстрировать последовательности жестов и действий при активизации определённого микросостояния.
  2. Даже при вполне формальной коммуникации человек может демонстрировать рудиментарные проявления агрессии, гнева или боли (прим. 2, 3, 4). Эти знаки по природе двойственны: с одной стороны, они отражают внутреннее состояние человека, с другой стороны, они не являются «полнозначным» выражением негативных эмоций – поэтому в рекурсии они маркируются улыбкой. Для агентов это означает возможность более открыто выражать негативные сценарии в речи; выражение этих сценариев должно сопровождаться «двойственной» улыбкой или другими маркерами иронии.
  3. Коммуникация может предполагать формальное взаимодействие – формальный ответ на вопрос или точное выполнение инструкции. Однако, если со стороны агента инструкция не может быть выполнена, агент может переживать из-за неуспеха до начала своих действий (демонстрировать высказывания, преследующие 0-цели), затем – пытаться рационально выполнить инструкцию, а затем – пытаться воздействовать на адресата, чтобы вызвать положительное впечатление (демонстрировать высказывания, преследующие ты-цели). Эта последовательность действий видна в примере (5). В других случаях некоторые части этой последовательности могут быть опущены.
  4. Если агент должен выполнить некоторые действия для адресата, то успешность взаимодействия зависит не от успешности выполнения действий, а от итогового удовлетворения адресата. Если агент не может выполнить инструкцию, он может использовать целый ряд стратегий (преследующих ты-цели), чтобы воздействовать на адресата и вызвать его удовлетворение. Если одна из стратегий «проваливается», агент может переходить к другой стратегии. Этот механизм перехода и выбора стратегий может давать сбой в напряжённой ситуации: стратегии будут быстро меняться без должной координации (прим. 5) – внешне это может служить симптомом напряжёния и усталости агента.

 

Список литературы

1.      Дюбуа Ж., Пир Ф., Тринон А. Общая риторика.- М.: Прогресс, 1986.

2.      Котов А. А. Управление динамикой речевого поведения виртуальных компьютерных агентов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог". Вып. 7 (14).- М.: РГГУ, 2008.- С. 241-247.

3.      Bänziger T., Scherer K. R. Using Actor Portrayals to Systematically Study Multimodal Emotion Expression: The GEMEP Corpus // ACII 2007, LNCS 4738 / Ed. A. Paiva, R. Prada,  R. W. Picard.- Berlin, Heidelberg: Springer-Verlag, 2007.- С. 476-487.

4.      Campbell N. Technology and Techniques for Talking Together // Третья международная конференция по когнитивной науке: Тезисы докладов.- Москва, 2008.- С. 533-534.

5.      Cowie R., Douglas-Cowie E., Cox C. Beyond emotion archetypes: Databases for emotion modelling using neural networks // Journal of Neural Networks.- 2005.- 18.- С. 371-388.

6.      Douglas-Cowie E., Cowie R., Sneddon I., et al. The HUMAINE Database: Addressing the Collection and Annotation of Naturalistic and Induced Emotional Data // ACII 2007, LNCS 4738 / Ed. A. Paiva, R. Prada,  R. W. Picard.- Berlin, Heidelberg: Springer-Verlag, 2007.- С. 488-500.

7.      López J. M., Cearreta I., Garay-Vitoria N., et al. A Methodological Approach for Building Multimodal Acted Affective Databases // Engineering the User Interface.- London: Springer-Verlag, 2009.- С. 1-17.

8.      Martin J.-C., Paggio P., Kuehnlein P., et al. Introduction to the special issue on multimodal corpora for modeling human multimodal behavior // Language Resources & Evaluation.- 2008.- 42.- С. 253-264.

9.      Rehmand M., Andre E. From Annotated Multimodal Corpora to Simulated Human-Like Behaviors // Modeling Communication, LNAI 4930 / Ed. I. Wachsmuthand,  G. Knoblich.- Berlin, Heidelberg: Springer-Verlag, 2008.- С. 1-17.

10.  Schank R. C. Tell me a story: narrative and intelligence.- Evanston, Illinois: Northwestern University Press, 2000 (1990).

 



[1] Программа доступна в рамках лицензии GNU по адресу: http://www.lat-mpi.eu/tools/elan/

[2] Разметка в миллисекундах позволяет оценить продолжительность пауз или, наоборот, беглый характер диалога (в том случае, когда в записанном виде он обогащён деталями и выглядит громоздко).

[3] Здесь отмечено время отступа до начала следующей фразы.