ЗВУКОВОЙ КОРПУС РУССКОГО ЯЗЫКА ПОВСЕДНЕВНОГО ОБЩЕНИЯ «ОДИН РЕЧЕВОЙ ДЕНЬ»: КОНЦЕПЦИЯ И СОСТОЯНИЕ ФОРМИРОВАНИЯ

SPEECH CORPUS OF THE RUSSIAN EVERYDAY COMMUNICATION "ONE SPEAKER'S DAY": BASIC CONCEPTION AND CURRENT STATE

Степанова С.Б. (stsvet_2002@mail.ru), Асиновский А.С. (a.s.asinovsky@gmail.com), Богданова Н.В. (nvbogdanova_2005@mail.ru), Русакова М.В. (mvrusakova@gmail.com), Шерстинова Т.Ю. (sherstinova@gmail.com)

Факультет филологии и искусств Санкт-Петербургского государственного университета, Санкт-Петербург, Россия

В докладе рассматриваются методические принципы создания звукового корпуса русского языка повседневного общения «Один речевой день», даны правила первичной обработки речевого материала и описание специализированной базы данных, приводятся сведения о текущем состоянии формирования корпуса.

1. Введение

Начиная с 1990‑х гг. во многих странах мира создаются национальные корпусы спонтанной речи. Впервые подобный звуковой корпус, записанный от демографически сбалансированной выборки информантов, был создан в рамках Британского национального корпуса. Для русской речи представительного корпуса языка повседневного общения ранее не существовало, хотя звуковые базы данных создаются в разных научных коллективах на протяжении уже как минимум 40 лет[1].

Несмотря на известный опыт в изучении разговорной речи, многое здесь еще остается неизвестным. Например, сколько различных словоформ (морфем, высказываний) человек порождает и воспринимает в течение часа, дня, месяца; сколько разных языковых единиц он употребляет в разные периоды времени или какова общая продолжительность звучания его речи за те же периоды.

Отсутствие подобной лингвистической информации вполне объяснимо: проведение такого рода исследований исключительно трудоемко, технические возможности для их проведения появились относительно недавно. Несмотря на то что сейчас такие возможности существуют, эти исследования сугубо инновационны, поскольку в них должны быть вовлечены довольно большие профессиональные научные коллективы.

В последние десятилетия собран значительный объем данных, связанных с естественной спонтанной речью на русском языке. К сожалению, разные исследователи накапливают материал с применением различных методик и в соответствии со своими задачами. В результате собранные ресурсы оказываются неоднородными, разрозненными и требуют больших усилий для формирования из них единого представительного корпуса. Следовательно, создание полноценной описательной базы русской устной разговорной речи является необходимым условием развития тех областей лингвистики, которые обращены к человеку и его речевому поведению.

2. Концепция и принципы создания звукового корпуса «Один речевой день»

2.1. Методические предпосылки

Приоритетная задача данного исследования заключается в том, чтобы получить записи русской спонтанной речи в естественных условиях. Это значит, что, во-первых, ничто не должно влиять на особенности речевого поведения говорящего в конкретных речевых ситуациях. Например, речевая коммуникация во время завтрака должна осуществляться в обычных для каждого информанта условиях: в том же помещении и с теми же коммуникантами, как обычно, с тем же уровнем шума (при открытом или закрытом окне, шуме холодильника и т. п.). Во-вторых, информант реализует свое речевое поведение в стандартных для него ситуациях, не меняя ради записи их репертуар и продолжительность. Например, если во время завтрака он привык читать газету, то не следует отказываться от этой привычки и вступать в несвойственную для этого момента коммуникацию с членами семьи или приглашать незапланированных гостей, чтобы увеличить объем речевой продукции во время записи. В то же время на начальном этапе исследования предполагается выбор дней, в которые проводится запись. Например, предпочтительнее осуществлять запись в обычный день, а не тогда, когда информант совершает необычные для себя действия (едет на экскурсию, отсутствует дома целый день из-за сезонного аврала на работе и т. п.).

2.2. Техническое обеспечение сбора материала

Запись проводится с использованием диктофона, который, предварительно настроив, информант закрепляет на себе стационарно. Такой режим записи неминуемо приводит к тому, что качество собранного материала получается неоднородным. В нашем случае запись осуществлялась на цифровые диктофоны Olympus WS-320M, обеспечивающие более 35 часов качественной записи.

Тем не менее, относительно низкий уровень качества такой записи по сравнению со студийными является неустранимым следствием полевой работы в условиях естественного эксперимента с речью и речевым поведением человека.

2.3. Отбор информантов

На данном этапе исследования не ставится задачи описать функционирование русского языка во всем многообразии его проявлений. Исследованию подвергается только одна из форм его бытования - речь наивных носителей языка, для которых русский является родным, жителей города, расположенного в сфере господства литературного языка, не подвергавшегося никаким мощным диалектным или иноязычным влияниям, города с полипрофессиональным населением, без сдвигов в возрастном и гендерном распределении. Практически идеальным образцом такого города является Санкт-Петербург. Именно поэтому отбор информантов проводится среди жителей Санкт-Петербурга.

Особенности данного исследования предполагают, что в роли информантов не должны выступать люди, привыкшие профессионально следить за своей речью, так как соответствующие навыки могут существенным образом повлиять на качество речевой продукции.

2.4. Работа с информантами

Работа с информантами в основном складывается из двух этапов: 1) обеспечение естественности коммуникативного поведения информантов; 2) обеспечение качества записи, необходимого для дальнейшего анализа полученного материала.

Выполнение первой задачи является очень трудным. Пилотный эксперимент, в котором информантами стали сами члены исследовательского коллектива, показал, что, несмотря на высокую мотивированность получения адекватных результатов, человек практически не может «забыть о микрофоне», если знает, что его знакомые (в данном случае коллеги) станут свидетелями его коммуникативных контактов с другими людьми, в особенности с близкими родственниками. Для получения максимально естественных записей необходимо проведение сбора материала в условиях полной анонимности. Для достижения этого была разработана следующая процедура. В исследовании принимает участие сотрудник, психолингвист по специальности, не являющийся членом рабочей группы. Он обращается к потенциальным информантам, например, к работникам какого-то предприятия. Проводя инструктирование, он дает каждому гарантию того, что сам не будет работать с полученными записями. Впоследствии сборщик передает записанный материал исследовательскому коллективу. Информанты не сообщают своих имен и фамилий, но заполняют специально разработанную анкету, где есть вопросы о возрасте, специальности, месте рождения и т. п. В результате исследователи работают с речевой продукцией людей, не только абсолютно незнакомых, но и никогда им не встречавшихся. Оборотной стороной данной процедуры является то, что информанты оказываются вне всякого контроля со стороны лингвиста-профессионала, что заранее предполагает довольно высокий уровень брака, большое количество записей, непригодных для дальнейшей обработки.

Выполнение второй задачи достигается инструктированием информантов по поводу использования диктофона.

2.5. Первичная обработка речевого материала

Обработка материала осуществляется квалифицированными исследователями-лингвистами. Первичная обработка – это предварительное описание материала и его орфографическая расшифровка. В исследованиях разговорной речи расшифровщиками чаще всего являются сами участники разговора. Именно они способны наиболее адекватно расшифровать фрагменты, характеризующиеся плохой разборчивостью, и описать экстралингвистический фон, на котором проходит общение. Однако в нашем исследовании расшифровщики не являются не только участниками, но и свидетелями коммуникативного поведения информантов. Расшифровка речи не участниками общения естественным образом приводит к тому, что значительная часть информации утрачивается. Это должно рассматриваться как своеобразная «плата» за естественность собранного материала.

Для орфографической расшифровки речевого материала экспертам были предложены следующие правила.

При неправильной постановке ударения или возможной его вариативности гласный выделяется с помощью большой буквы: складЫ, творОг.

Фонетическая транскрипция не включается в орфографическую расшифровку. В некоторых особо очевидных отклонениях от кодифицированного литературного языка в графе «комментарии» делались пометки типа: [чек] (человек), [грю] (говорю) и т. п.

Разрядкой передается замедление темпа.

Ремаркой [нрзб.] обозначается неразборчивость слова или части записи; если фрагмент неразборчивого участка больше слова, указывается время его начала и конца.

Скандирование, затягивание гласных и согласных передается с помощью дефисов: Ну-у! Не по-ни-ма-ю!

Некоторые явления «неканонической фонетики» условно передаются следующими орфограммами:

1) угу - утвердительное междометие, произносимое с закрытым ртом;

2) гм – произносимое с закрытым ртом звуки;

3) не-а – отрицание, вторая часть которого может произноситься с твердым приступом (гортанной смычкой);

4) не-у – междометие отрицания, произносимое с закрытым ртом;

5) м-м, э-э, а-а – заполнение хезитационных пауз;

6) М? – переспрос с закрытым ртом.

При членении речевого текста используются следующие знаки:

1) / - перцептивная межсинтагменная пауза (при этом может не быть чисто физического перерыва в звучании) – там, где ее наличие ощущается как нормативное: Я вчера ходила в кино / и там Женю встретила //;

2) // - реальная пауза достаточно большой длительности. Если она находится после отрывка с интонацией завершения, считаем её заменяющей знак точки и следующую реплику пишем с большой буквы: Я вчера ходила в кино // Там Женю встретила //;

3) (…) - хезитационная пауза: реальная пауза там, где её наличие ощущается как ненормативное: Я вчера ходила …в кино / там Женю встретила //;

4) ! ? – знаки для передачи восклицательных и вопросительных реплик. Они заменяют знак //.

Для систематизации корпуса и представления результатов обработки данных была разработана специализированная база данных.

3. Специализированная база данных SpeechDay

Звуковой корпус «Один речевой день» состоит из двух модулей: массива звуковых файлов и базы данных SpeechDay. Последняя представляет собой реляционную базу данных, разработанную в формате MS Access 2003. На настоящий момент (версия 1.2) она состоит из 7 таблиц, которые можно условно разделить на 2 группы: фактические данные и результаты научно-исследовательской работы и их интерпретация. Некоторые таблицы содержат «смешанные» данные.

Группа 1

Таблица 1 – Informants: фактические данные обо всех базовых информантах, полученные из анкет, заполненных самими информантами. В связи с тем что ответы на многие вопросы не являлись для обязательными, поля этой таблицы заполнены не полностью.

Поле Описание

· N порядковый номер информанта в базе данных;

· FIO фамилия-имя-отчество информанта или его псевдоним (внутренняя информация разработчиков корпуса);

· BInf код информанта (И1, И2, etc.);

· Gender пол информанта (Ж/М);

· Age возраст информанта (число полных лет) - точно или приблизительно;

· PBirth место рождения информанта (город, регион и т. п.);

· SClass социальное происхождение (напр., профессия родителей и т. п.);

· Educ образование информанта (высшее, среднее и т. п.);

· Qual квалификация информанта (по диплому, свидетельству и т. п.);

· Prof фактическая профессия или характер деятельности информанта на момент записи;

· Nat национальность информанта и его родителей (по отдельности);

· InfComments комментарий относительно типа личности и речевых особенностей информанта;

· NFiles количество звуковых файлов, полученных от информанта;

· QFiles качество записанных звуковых файлов;

· TTime общее время записи;

· RTime полезное время записи (относительно разборчивая речь);

· RecComments комментарий относительно звукозаписей, полученных от данного информанта;

· RName фамилия-имя-отчество исследователя, выполнявшего расшифровку.

Таблица 2 – Communicants: фактические данные обо всех коммуникантах, также полученные из анкет, заполненных информантами.

Поле Описание

· BInf код информанта (И1, И2, etc.);

· OInf код коммуниканта (A1, F2, etc.);

· FIO фамилия-имя-отчество коммуниканта или его псевдоним (внутренняя информация разработчиков корпуса);

· Relation отношение коммуниканта к информанту (напр., мать, друг, продавец, etc.);

· Gender пол коммуниканта (Ж/М);

· Age возраст коммуниканта (число полных лет) - точно или приблизительно;

· PBirth место рождения коммуниканта (город, регион и т. п.);

· SClass социальное происхождение (напр., профессия родителей и т. п.);

· Educ образование коммуниканта (высшее, среднее и т. п.);

· Qual квалификация коммуниканта (по диплому, свидетельству и т. п.);

· Prof фактическая профессия или характер деятельности коммуниканта на момент записи;

· Nat национальность информанта и его родителей (по отдельности);

· Comments комментарий относительно типа личности и речевых особенностей коммуниканта;

· SpeechSample имя звукового файла или имя исходного звукового файла и точный адрес метки начала речи;

· RQuality качество записи по 5‑балльной системе (5 - максимум).

Таблица 3 – SoundFiles: описание исходных звуковых файлов, полученных от информантов - информация о длительности каждого звукового файла, о длительности частей, которые поддаются расшифровке (полной или частичной), о длительности частей, которые не содержат речи или не поддаются расшифровке.

Поле Описание

· BInf код информанта (И1, И2 и т. п.);

· SFile имя звукового файла (напр., w1.wav);

· TTime общее время звучания;

· RTime полезное время звучания;

· Comments комментарий к файлу;

· OverView наличие (галочка) / отсутствие «скоростной» расшифровки;

· Decoding наличие (галочка) / отсутствие детальной расшифровки;

· TDecoding временнаÛя продолжительность детальной расшифровки.

Таблица 4 – Epizods: описание основных эпизодов речевого дня, полученных в результате прослушивания звукозаписей экспертами, информация об участниках разговора, о времени начала и конца каждого сюжета, о его теме, о месте и времени разговора. На первом этапе заполнения базы разбивка на эпизоды выполнялась относительно произвольно, по усмотрению эксперта. В настоящий момент ведется работа по стандартизации (нормализации) этих данных.

Поле Описание

· BInf код информанта (И1, И2, etc.);

· SFile имя звукового файла (напр., w1.wav);

· NScene порядковый номер фрагмента/эпизода;

· SceneName название эпизода (напр., «говорят о погоде»);

· STime начало звучания;

· FTime полезное время звучания;

· Decoding наличие (галочка) / отсутствие детальной расшифровки;

· Speakers коммуниканты, участвующие в разговоре;

· Time точное или примерное время разговора (10 часов утра / утро и т. п.);

· Place место, где происходит разговор (дом, офис, etc.);

· Overview описание ситуации (что происходит / нрзб / шум);

· Comments комментарий к данному фрагменту звукозаписи.

Таблица 5 – Decoding: содержит подробную орфографическую расшифровку отдельных эпизодов, выполненную экспертами. Планируется заполнение этой таблицы для всего корпуса.

Поле Описание

· BInf код информанта (И1, И2, etc.);

· SFile имя звукового файла (напр., w1.wav);

· NScene порядковый номер фрагмента/эпизода;

· STime начало фрагмента;

· Speaker говорящий (код информанта или коммуниканта);

· Speech расшифровка речи или описание (не)вербальной ситуации (напр., шум / нрзб и т. п.);

· Comments комментарий;

· OComments другие комментарии (лексический, грамматический и пр.).

Группа 2 представлена пока лишь двумя таблицами.

Таблица 6 – InformantsSocial: имеет ту же структуру, что и Informants, однако данные, представленные в ней, – это результат субъективной оценки информанта исследователем, который работал с соответствующим материалом. Следует заметить, что до заполнения этой таблицы исследователи не были знакомы с фактическими данными таблицы 1.

Таблица 7 – InformantsPsycho: содержит данные, которые можно охарактеризовать как «психологический портрет» информанта. Таблица заполнялась исследователями, работавшими с записями.

Поле Описание

· BInf код информанта (И1, И2, etc.);

· Nev невротичность;

· SAgr спонтанная агрессивность;

· Depr депрессивность;

· Razd раздражительность;

· Obsch общительность;

· Uravn уравновешенность;

· RAgr реактивная агрессивность;

· Zast застенчивость;

· Otkr открытость;

· Extr экстраверсия / интроверсия;

· Emot эмоциональная лабильность;

· Mask маскулинность / феменизм;

· Esse словесный портрет информанта, написанный исследователем.

Рис. 1. Фрагмент заполненной базы данных (таблицы SoundFiles > Epizods > Decodings)

4. Формирование звукового корпуса «Один речевой день»

Осенью 2007 г. при поддержке гранта РГНФ (проект № 07-04-94515е/Я Звуковой корпус русского языка повседневного общения «Один речевой день») была осуществлена первая серия звукозаписей. Для этого была отобрана группа информантов из 30 человек, представляющих разные социальные и возрастные слои населения Санкт-Петербурга. Информанты после подробного инструктажа осуществили звукозаписи своих речевых контактов в течение одного дня, а также заполнили социологические анкеты и прошли психологическое тестирование.

Полученные записи представлены в 266 файлах. Прослушано и частично расшифровано 202 файла (часть файлов была забракована из-за отсутствия в них речи). Общая длительность записанного материала – 195 часов, из них 134 часа содержат речь, вполне пригодную для дальнейшего анализа.

Кроме речи информантов, записана также речь 520 их коммуникантов. Среди них – люди самого разного возраста (от 3 до 68 лет), разных специальностей (продавцы, кондукторы, менеджеры, преподаватели, врачи, библиотекари, компьютерщики и др.), а также студенты и курсанты, состоящие с информантами в родственных, дружеских, производственных или иных отношениях. В материалах представлены разнообразные жанры и стили речи: деловой разговор с коллегами, разговор по телефону, чтение лекции, проведение практических занятий по иностранному языку, общение с друзьями и родными во время прогулок или вечеринок, за ужином, за завтраком и т. п. Темы разговоров также разнообразны: от обсуждения со стоматологом проблем с зубами до разговоров о религии, о жизни и смерти. Записи были сделаны в домашних условиях, в транспорте, на улице, в университете, в военном училище, в кафе, в магазине, в парке аттракционов.

Из записей выделено и проаннотировано 2202 эпизода, из них подробно расшифровано 134.

Подробно расшифровано более 4500 реплик, 39300 словоупотреблений, 220300 знаков (без символов / и //), что составляет примерно 5,5 печ. листов.

Опыт использования базы данных SpeechDay показал, что на следующем этапе целесообразно оптимизировать структуру базы данных, осуществив нормализацию целого ряда параметров. Наиболее сложными для нормализации представляются названия эпизодов. Планируется разработка более удобного пользовательского интерфейса и многоуровневой поисковой системы, а также обеспечение доступа к соответствующему звуковому файлу непосредственно из среды базы данных.

Последующие этапы обработки материала будут представлять собой его описание на разных уровнях и с разной степенью подробности в соответствии с различными задачами интегрального описания речи. Планируется расширение речевого материала – получение звукозаписей от новых информантов, оптимизация специализированной базы данных и ее преобразование в мультимедийную информационную систему. Полная реализация проекта будет иметь важное значение как для решения фундаментальных научных задач (изучения русской спонтанной речи на разных лингвистических уровнях, исследования реальных коммуникативных ситуаций и сценариев, построения интегральной модели языка повседневного общения), так и для решения актуальных прикладных задач в области речевых технологий (в первую очередь для синтеза и распознавания русской речи).

[1] Подробнее об этом см. Полевая лингвистическая практика. Учебно-методический комплекс сложной структуры. Часть 1. Теоретические основы и методика сбора лингвистических данных для представления их в речевом корпусе русского языка / Ред. Асиновский А. С., Богданова Н. В. СПб., 2007. В качестве примера таких баз можно назвать проект «Отчеты детей об их сновидениях» (руководители А. А. Кибрик и В. И. Подлесская)», а также устную часть Национального корпуса русского языка.