«ИНТОКЛОНАТОР» - КОМПЬЮТЕРНАЯ СИСТЕМА КЛОНИРОВАНИЯ ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК РЕЧИ

 

«INTOCLONATOR» - A COMPUTER SYSTEM FOR PROSODIC SPEECH PARAMETERS CLONING

Лобанов Б.М. (Lobanov@newman.bas-net.by), Цирульник Л.И. (L.Tsirulnik@newman.bas-net.by), Сизонов О.Г. (Osizonov@yahoo.co.uk)

Объединённый институт проблем информатики НАН Беларуси, Минск, Беларусь

Описывается компьютерная система клонирования просодических характеристик речи - «ИнтоКлонатор», позволяющая автоматизировать процесс создания комплекса просодических портретов, необходимых для синтеза речи по произвольному тексту. Система предназначена для расширения инвентаря просодических портретов при синтезе персонализированной речи по текстам различных жанров.

Введение

Просодика играет важную роль как при восприятии смысла, так и при восприятии индивидуальности голоса и речи диктора. Поэтому просодиче­ская модель, используемая при синтезе речи по тексту, должна адекватно отра­жать как языко-зависимые, так и дикторо-зависимые характеристики.

Существует достаточно большое число просодических моделей, предложенных для использования в системах синтеза речи по тексту. По методу представления интонации просодические модели можно разделить на следующие основные категории:

– автосегментная модель (АМ-модель) [1];

– суперпозиционная модель (СП-модель) [2];

– IPO-модель [3];

– непрерывная параметрическая модель (Tilt -модель)[4].

Алгоритмы и компьютерная система клонирования просодических параметров, рассматриваемые в данной работе, основаны на оригинальной модели представления интонации синтагмы последовательностью просодических Портретов Акцентных Единиц (ПАЕ). ПАЕ-модель была предложена более 20 лет назад [5] и успешно использовалось с тех пор в  системах синтеза речи по тексту [6, 7].

В соответствии с ПАЕ-моделью, минимальной просодической единицей является  Акцентная Единица (AЕ), состоящая из одного или более слов, и имеющая  в своём составе только один полноударный  слог. AЕ, в свою очередь, состоит из ядра (полноударный слог), предъядра (все фонемы, предшествующие полноударному слогу) и заядра (все фонемы за полноударным  слогом). Главное предположение ПАЕ-модели состоит в том, что топологические свойства просодических параметров для определенного интонационного типа фразы не изменяются (или изменяются незначительно) с изменениями фонетического контекста и числа слогов в предъядре и заядре АЕ.

Для клонирования просодических характеристик речи диктора, пре­жде всего, записывается произносимый им специально подготов­ленный текст. Затем опытный фонетист анализирует полученную фонограмму и выделяет фонетические синтагмы (под синтагмой понимается самостоятельная в интонационном смысле часть фразы или вся фраза). Решение о наличии конца синтагмы  принимается на основе ряда признаков, таких как: присутствие дыхательной паузы, комплексная реализация одного из возможных интонационных типов синтагмы, наличие определён­ной динамической структуры (контура силы звука) и определённой ритмической струк­туры (контура длительности звуков). При членении фонограммы на синтагмы во вни­мание принимается также присутствие знаков препинания в соответствующем ей тек­сте, а также некоторых других формальных признаков текста.

Каждая анализируемая синтагма автоматически размечается на акцентные единицы – АЕ. Затем осуществляется измерение просодических параметров для каждой АЕ: мелодики (значе­ния частоты основного тона - F0), динамики (значения амплитуды - A) и ритмики (значения длительности звуков - T), и формирование просодических портретов.

1. Функциональная схема системы

Функциональная схема, входные и выходные данные, взаимодействие бло­ков системы представлены на рис 1.

Входные данные системы:

– предварительно обработанная фонограмма записи – набор речевых син­тагм, каждая из которых хранится в виде оцифрованной звуковой волны в от­дельном файле в формате WAVE PCM;

– предварительно обработанная стенограмма записи – набор текстовых файлов синтагм – с указанием интонационного типа и количества АЕ для каждой синтагмы;

– правила просодической маркировки синтезированного речевого сигнала на АЕ и элементы АЕ – предъядро, ядро и заядро.

Выходные данные системы:

БД просодических характеристик речи «клонируемого» дик­тора – набор мелодических, энергетических и ритмических портретов акцентных единиц.

Просодическая маркировка естественного РС. Текстовые файлы синтагм является входным данным блока синтеза и просодической маркировки синтезированного речевого сигнала (РС). В блоке синтеза осуществляется фонетическая и просодическая обработка текста, включающая преобразования «буква-фонема» и «фонема-аллофон», выбор звуковых волн аллофонов из акустической БД, их компиляция и маркировка синтезированного речевого сигнала на АЕ и элементы АЕ (ЭАЕ): предъядро, ядро и заядро. Ре­зультат обработки – просодически размеченная синтагма синтезированного речевого сигнала.

Каждая пара синтагм «просодически-размеченный синтезированный сигнал – естест­венный сигнал» поступает в блок ДП-сегментации и просодической маркировки естественного РС, в котором осуществляется разметка естественного сигнала на периоды основного тона (питчи), анализ акустических признаков естественного и синтезированного сигна­лов, их ДП-сопоставление и перенос маркеров границ аллофонов, АЕ и ЭАЕ с синтезиро­ванного на естественный РС. В системе реализована настройка параметров вы­числения питчей естественного РС. Результатом работы блока является синтагма естественного РС, в которой расставляются метки питчей, аллофонов, а также предъядра, ядра и заядра для каждой АЕ. Для именования регионов приняты следующие обозначения:  предъядро – preN, ядро – N, заядро – postN. По именам этих регионов определяются границы и длительности предъядра, заядра и ядра каждой акцентной единицы.


Рис. 1. Функциональная схема системы «ИнтоКлонатор»

Пример сигнала синтагмы «Машенька уснула», размеченной на питчи, аллофоны, АЕ и ЭАЕ, показан на рис. 2. Синтагма состоит из двух АЕ: «Машенька» и «уснула». Ядром первой АЕ является аллофон А012, ядром второй – аллофон U022.


Рис. 2. Пример маркировки речевого сигнала синтагмы

 

2. Алгоритм создания  мелодических портретов

С использованием информации о текущей длительности периодов речевого сигнала, задаваемой метками питчей, вычисляется исходный мелодический контур (ИМК) значений ЧОТ (F0), при этом применяется процедура медианного сглаживания.  Для каждого элемента АЕ – предъядра, ядра и заядра – равномерно выбирается пять точек ИМК, лежащих во временных пределах каждого элемента АЕ на участках, соответствующих аллофонам гласных и звонких согласных. При этом в ИМК не включаются точки, находящиеся в регионах аллофонов шумных согласных {f, f’, s, s’, sh, sh’, c, ch’, h, h’, p, p’, t, t’, k, k’, b, b’, d, d’, g, g}. На участках шумных согласных реальные значения ЧОТ заменяются новыми значениями путём вычисления интерполяционной прямой от последней точки предшествующего региона звонкого аллофона к первой точке последующего региона звонкого аллофона. Пример обработки контура ЧОТ для синтагмы «Машенька уснула»показан на рис.3.

Рис. 3. Пример обработки мелодического контура синтагмы

На следующих шагах алгоритма осуществляется нормировка длительности сегментов preN, N, postN путём уравнивания длительно­сти областей предъядра, ядра и заядра каждой АЕ, входящей в синтагму.

Далее осуществляется нормировка контура ЧОТ. Для этого опреде­ляются минимальное – F0 min – и максимальное – F0 max – значения на всей исследуемой фонограмме. Нормированные значения ЧОТ вычисляется согласно формуле:

(1)

Результататом описанных операций является создание последовательности нормированных мелодических портретов АЕ, составляющих синтагму (рис. 4).

Рис. 4. Нормированный мелодический портрет двухакцентной синтагмы «Машенька уснула»

3. Алгоритмы создания  энергетических и ритмических портретов

Для создания энергетического портрета синтагмы строится контур текущих значений энергии путём усреднения среднеквадратичного значения сигнала на интервале 15 миллисекунд с шагом 5 миллисекунд. На каждом из ядер АЕ синтагмы выбирается максимальное значение текущей энергии – Аi max. Графическое построение контура производится по следующему правилу. От левой границы сигнала до правой границы первого ядра строится горизонталь на уровне значения этого ядра Аmax. Далее от правой границы первого ядра до точки со значением амплитуды второго ядра синтагмы Аmax строится прямая, а от неё до правой границы этого же ядра строится горизонталь. И так далее, до последнего ядра, от правой границы которого проводится горизонталь до конца сигнала.

Пример обработки энергетического контура для синтагмы «Машенька уснула»показан на рис. 5.

Рис. 5. Пример обработки энергетического контура синтагмы

Далее производится нормировка энергетического контура контура. Нормировка по длительности сегментов preN, N, postN осуществляется, как и в предыдущем случае, путём уравнивания длительно­сти областей предъядра, ядра и заядра каждой АЕ, входящей в синтагму. Нормировка энергетических уровней осуществляется путём деления полученного энергетического контура на величину наибольшего значения Аi max, найденного на всей исследуемой фонограмме.

Результататом описанных операций является создание нормированного энергетического портрета синтагмы (рис. 6).

Рис. 6. Нормированный энергетический портрет двухакцентной синтагмы «Машенька уснула»

Для создания  ритмического портрета осуществляются следующие операции. Вычисляются длительности ядер АЕ, входящих в синтагму – TN1, TN2, TN3, …. Определяется максимальная из длительностей ядер в синтагме и осуществляется вычисление нормированных ритмических коэффициентов изменения длительности ядер в синтагме относительно ядра с максимальной длительностью. Ритмический коэффициент i-ой АЕ Ri вычисляется в соответствии с формулой

(2)

где TNi  – длительность ядра i-й АЕ синтагмы, TNi max – максимальная из длительностей ядер в синтагме.

Результататом описанных операций является создание нормированного ритмического портрета синтагмы (рис. 7). Нижний участок рисунка показывает изменённые под действием ритмического фактора относительные длительности ядер первой и второй АЕ синтагмы.

Рис. 7. Нормированный ритмический портрет двухакцентной синтагмы

4. Пользовательский интерфейс системы «ИнтоКлонатор»

Пользовательский интерфейс системы «ИнтоКлонатор» (рис. 8) включает следующие блоки:

– окно отображения осциллограммы речевого сигнала (РС);

– окно отображения графика нормированной амплитуды (Anorm) сигнала;

– окно отображения графика нормированной ЧОТ (F0 norm) сигнала;

– диалоговые окна настроек параметров системы.


Рис. 8. Общий вид пользовательского интерфейса системы «ИнтоКлонатор»

На осциллограмме РС (рис. 9) указаны границы периодов основного тона и аллофонов, а также имена аллофонов. В системе реализовано масштабирование отображения и прослушивание выде­ленного фрагмента РС.


Рис. 9.  Отображение осциллограммы РС, границ аллофонов и периодов основного тона

Нормированные амплитуда и ЧОТ сигнала (рис 10) вычисляются в соответствии с задаваемым диапазоном Amin, Amax и F0 min, F0 max. На графиках отображаются границы АЕ синтагмы и предъядра, ядра и заядра каждой АЕ, а также вычисленные динамический и мелодический портреты.


Рис. 10.  Отображение графиков Anorm, F0 norm, динамического и мелодического портретов синтагмы

Настройки параметров системы реализованы в следующих диалоговых окнах:

– диалог настроек параметров вычисления ЧОТ;

– диалог настроек параметров сегментации РС,

– диалог установки диапазона амплитуды и ЧОТ;

Настройки блока вычисления ЧОТ позволяют устанавливать пара­метры вычисления спектральных характеристик и параметры определения вокализованных участков сигнала.

Настройки блока сегментации позволяют устанавливать пара­метры ДП-сопоставления естественного и синтезированного РС.

Настройки диапазона амплитуды и ЧОТ позволяют указывать значения Amin, Amax и F0 min, F0 max, которые должны быть определены заранее для набора речевых синтагм, обрабатываемых системой.

5. Результаты практического использования сис­темы «ИнтоКлонатор»

Система «ИнтоКлонатор» работает на базе специально разработанного текстового корпуса, включающего «мини-текст» для создания основного набора просодических портретов и  «макси-тексты» для создания расширенного набора просодических портретов русской речи. С использованием системы «ИнтоКлонатор» создана БД просодических портретов для 1-й версии системы синтеза русской речи по тексту «МультиФон -1», включающая мелодические, динамические и ритмические портреты для следующих интонационных типов.

Для повествовательных предложений.

Синтагмы с интонацией незавершённости, которые образуются в следующих ситуациях:

1) С1, если «И»;

2) С2, если «ИЛИ»;

3) С3, если «,» и не С7 – С11 при условии, что «,» встретилась в тексте впервые или в 4-й, 7-й,… раз подряд;

4) С3_1, если «,» и не С7 – С11 при условии, что «,» встретилась в тексте во 2-й, 5-й, 8-й,… раз подряд;

5) С3_2, если «,» и не С7 – С11 при условии, что «,» встретилась в тексте в 3-й, 6-й, 9-й раз подряд;

6) С4, если «-»;

7) С5, если «(»;

8) С6, если «, - »;

9) С7, если «,» и союз сочинительный;

10) С8, если «,» и союз вопросительно- подчинительный;

11) С9, если «,» и союз подчинительный;

12) С10, если «,» и причастие;

13) С11, если «,» и деепричастие;

14) С01, если первая, третья, пятая и т.д. синтаксическая синтагма;

15) С02, если вторая, четвёртая  и т.д. синтаксическая синтагма.

Синтагмы с интонацией завершённости, которые образуется в следующих ситуациях:

16) P1, если «:»;

17) P2, если «);

18) P3, если «;»;

19) P4, если «.» при условии, что «.» встретилась в тексте в1-й или 4-й, 7-й и т.д. раз подряд;

20) P4_1, если «.» при условии, что «.» встретилась в тексте во 2-й, 5-й, 8-й и т.д. раз подряд;

21) P4_2, если «.» что «.» встретилась в тексте в 3-й, 6-й, 9-й … раз подряд;

22) P5, если «…»;

23) P5, если «.» и конец абзаца;

24) P6, если «.» и конец текста;

25) P7, если «.» и в начале cоюз сочинительный  после (,);

26) P8, если «.» и в начале cоюз вопросительно- подчинительныq после (,);

27) P9, если «.» и в начале cоюз подчинительный после (,);

28) P10, если «.» и в начале причастие после (,);

29) P11, если «.» и в начале деепричастие после (,).

Для вопросительных предложений:

30) Q1, если в составе синтагмы имеется вопросительное слово и если в вопросительном предложении оказалась только одна синтагма;

31) Q2, если в составе синтагмы отсутствует вопросительное слово и если в вопросительном предложении оказалась только одна синтагма;

32) Q1-1, если в составе синтагмы имеется вопросительное слово и если в вопросительном предложении более, чем одна синтагма;

33) Q2-1, если в составе синтагмы отсутствует вопросительное слово и если в вопросительном предложении более, чем одна синтагма.

Для восклицательных предложений.

34) E1, если в составе синтагмы имеется междометие и если в восклицательном предложении оказалась только одна синтагма;

35) E2, если в составе синтагмы отсутствует междометие и если в восклицательном предложении оказалась только одна синтагма;

36) E1_1, если в составе синтагмы имеется междометие и если в восклицательном предложении более, чем одна синтагма;

37) E2_1, если в составе синтагмы отсутствует междометие и если в восклицательном предложении более, чем одна синтагма.

Итого с использованием системы «ИнтоКлонатор» созданы просодические портреты синтагм 37-ми интонационных типов. При этом допускались 4 возможных варианта синтагм, состоящих из одной, двух, трёх и четырёх акцентных единиц. Таким образом, были созданы 37*4 = 148 просодических портретов.

Для анализа персональных особенностей реализации мелодических портретов АЕ  четырёх интонационных типов: незавершённость, завершённость, восклицание и вопрос, были проведены исследования в соответствии со следующей методикой. Два профессиональных диктора радио (Олег и Светлана) и три непрофессиональных (Борис, Елена, Лилия) зачитали один и тот же отрывок художественного текста. Затем в фонограммах записей каждого диктора были выделены одни и те же участки речи, на которых ими были реализованы указанные четыре интонационных типа, и на основании анализа контуров F0 построены ПАЕ в соответствии с разработанной методикой. На рис. 11 представлены полученные мелодические портреты конечных АЕ для четырёх интонационных типов 5-ти дикторов.


Рис. 11. Мелодические портреты конечной АЕ для четырёх интонационных типов 5-ти дикторов

Как видно из рис. 11, полученные мелодические ПАЕ имеют достаточно ярко выраженные персональные особенности. Причём в наибольшей степени индивидуальные дикторские различия в ПАЕ проявля­ются на предъядре и заядре, в то время как на ядерных участках они менее зна­чительны. В целом же, однако, сохраняется рисунок портретов, характерный для каждого исследуемого интонационного типа.

 

Заключение

Разработанная система клонирования просодических характеристик речи позволила во много раз сократить трудоёмкость и время, необходимые для создания комплекса просодических портретов для синтеза речи по произвольному тексту. Система «ИнтоКлонатор» находит применение как для нужд дальнейшего расширения инвентаря ПАЕ при синтезе речи по текстам различных жанров, так и при создании персонализированных БД ПАЕ.

Доклад будет проиллюстрирован образцами синтезированной речи, просодические характеристики которых создавались с помощью системы «ИнтоКлонатор».

 

Список литературы

1. Silverman, K. et al. TOBI: a standard for labelling English prosody. ICSLP: 867-870, 1992.

2. Fujisaki, H. Prosody, Models, and Spontaneous Speech. Computing Prosody, Springer-Verlag: 27–42, 1996.

3. De Pijper, J. Modelling British English Intonation. Foris, Dordrecht: 1983.

4. Taylor, P. Analysis and synthesis of intonation using the Tilt model. J. Acoust. Soc. of America: 2000.

5. Lobanov B., The Phonemophon Text-to-Speech System. 11-th ICPhS, Tallin: 1987, 61-64.

6. Lobanov B., Tsirulnik L., Zhadinets D., Karnevskaya E. Language- and Speaker Specific Implementation of Intonation Contours in Multilingual TTS Synthesis. Speech Prosody, Dresden: 2006, v. 2, 553-556.

7. Лобанов, Б.М. «МУЛЬТИФОН» - система персонализированного синтеза речи по тексту на славянских языках // В кн: Лингвистическая полифония / Изд. «Языки славянских культур»– Москва, 2007 – С. 849-866.