Статистические и контекстуальные правила разрешения некоторых видов омонимии задачах синтеза речи по тексту

ПРОБЛЕМА РАЗРЕШЕНИЯ «Ё»-ОМОГРАФОВ ПРИ СИНТЕЗЕ РЕЧИ ПО ТЕКСТУ

THE PROBLEM OF THE «Ё»-HOMOGRAPHS RESOLUTION IN TEXT-TO-SPEECH SYNTHESIS“

Лобанов Б.М. (lobanov@newman.bas-net.by),

Объединенный институт проблем информатики НАН Беларуси, Минск, Беларусь

В статье рассматривается проблема адекватного разрешения неопределенностей в системах синтеза речи по тексту, связанных с частным случаем омонимии – графической «Ё»-омонимией. Рассмотрены статистические характеристики омографических пар, в том числе «Ё»-омографов. Исследованы статистические характеристики распределений внутри наиболее часто встречающихся пар «Ё»-омографов. Обсуждаются пути разрешения наиболее частотной омографической пары «ВСЁ» и «ВСЕ».

“Когда же расставите точки над «ё»? Ё моё!!! ”

LobanoPhone - 2000

Введение

Проблема адекватного разрешения неопределенностей, связанных с омонимией, играет существенную роль в решении задач распознавания и синтеза речи. Наиболее важное значение эта проблема приобретает при решении задач преобразования «речь – текст» (распознавание речи), когда существенным является разрешение почти всех видов омонимии: синтаксической, грамматической, лексической, словообразовательной и фонетической (см. словарь лигвистических терминов [1]). Только один вид омонимии - графическая омонимия, не играет роли в решении задач распознавания речи. Зато этот единственный вид омонимов, называемых омографами, играет весьма существенную роль в задачах преобразования «текст – речь» (синтез речи). Игнорирование существования омографов нарушает смысловое восприятие синтезированной речи и дополнительно ухудшает её естественность. Нам не известно ни одной работы, направленной на анализ и решение проблемы адекватного разрешения неопределенностей при синтезе русской речи по тексту, связанных с существованием омографов. В данной работе мы попытаемся в какой-то степени заполнить этот пробел, опираясь на фактический материал, представленный в словаре омографов русского языка [2].

В русском языке существуют два источника графической омонимии: вариативность словесного ударения, местоположение которого в письменной речи не указывается (СУ- омографы), и письменная традиция не обязательного проставления необходимых точек на букве «Ё» («Ё»-омографы). Литера «Ё» была предложена княгиней Екатериной Дашковой в 1783 году, а в печати употреблена в 1795 году. Отдельной буквой она долгое время не считалась и в азбуку официально не входила. В русском языке буква «Ё» используется, чаще всего в тех позициях, где произношение [(j)o] образовалось из [(j)e], чем и объясняется производная от «Е» форма буквы, хотя с точки зрения фонетики логичней было бы поставить точки не над «Е», а над «О». Букве "Ё" - 225 лет. Хотя она родилась в Санкт Петербурге, однако 20 октября 2001 года в Ульяновске открылся единственный в мире памятник букве "Ё" (см. фото).

Существует много различных мнений, как в пользу, так и против непременного использования буквы «Ё» в печатном тексте (см. :http://www.yomaker.ru/). С нашей позиции – позиции разработчиков систем синтеза речи по тексту – отсутствие в тексте «Ё» влечёт за собой дополнительные трудности, которые должны быть разрешены в той или иной степени. Простейшее решение – игнорирование проблемы – влечёт за собой дополнительные трудности в восприятии синтезированной речи и к раздражающему слух Е-канию. Данная работа посвящена исследованию статистических закономерностей проявления «Ё»-омонимии в различных текстах, а также обсуждению вопросов разрешения связанных с ней неопределённостей.

1. Статистические характеристики омографических пар

Статистические исследования проводились с использованием специально разработанной программы “HOMOGRAPH STATISTICS” и электронного словаря омографов, созданного на основе книжного словаря [2]. Целью исследования являлось определение статистической значимости «Ё»-омографов в общем списке «СУ»- и «Ё»-омографов [2], а также выявление особенностей статистических распределений только внутри подкласса «Ё»-омографов. Общее количество омографов, в соответствии с приведенными в [2] данными, составляет 3894 пар, из них «Ё»-омографов – только 232 пары.

Cтатистические характеристики определялись в отдельности для достаточно представительных и различных типов текстов:

· А.С. Пушкин – стихотворные произведения,

· Л.Н. Толстой – роман «Анна Каренина,

· Б. Акунин, Д. Рубина, Л. Петрушевская – современная проза,

· Труды конференции «ДИАЛОГ-2006» - научная проза.

В таблице 1 приведены интегральные статистические характеристики этих текстов по всей совокупности омографов, содержащихся в словаре [2].

Таблица 1. Результаты теста по всем омографам

Тип текста	Общее количество слов в тексте	Общее количество пар омографов	Число различных пар омографов
*Словарь омографов* *[2]*	-	*3894* (*100%*)	*3894* *(100%)*
А.С. Пушкин	266.726 (100%)	9.421 (3,53%)	827 (21,2 %)
Л.Н. Толстой	279.448 (100%)	8.747 (3,13%)	680 (17,5%)
Б. Акунин и др.	379.277 (100%)	13.630 (3,59%)	1088 (27,9%)
«ДИАЛОГ-2006»	305.742 (100%)	7.195 (2,35%)	563 (14,5%)
*Среднее количество*	307.775 (100%)	3,15%	20,3%

Как видно из таблицы 1, выбранные тексты различных жанров имеют примерно одинаковый объём, в среднем – около 300 тыс. слов. Средний процент вхождения омографов составил 3,15%. Если считать, что среднее число слов на странице равно 650, то около 20-ти слов могут оказаться омографами. В случае их неадекватного раскрытия, как показывает опыт, это приводит к весьма негативному впечатлению при прослушивании синтезированной речи. Из таблицы видно также, что наибольшее количество омографов встречается в современной прозе, а наименьшее – в научном тексте. Очень интересный факт вытекает при рассмотрении 4-го столбца таблицы: всего только порядка 20% от общего многообразия всех омографических пар встречается в проанализированных текстах! Это указывает на первостепенную важность этого подмножества в решении задач разрешения омографии.

В таблице 2 приведены статистические характеристики 4-х классов текстов по совокупности пар «Ё»-омографов, содержащихся в словаре [2].

Таблица 2. Результаты теста по «Ё»-омографам

Тип текста	Общее количество слов в тексте	Общее количество пар «Ё»-омографов	Число различных пар «Ё»-омографов
*Словарь омографов* *[2]*	-	*232* (*100%*)	*232* *(100%)*
А.С. Пушкин	266.726 (100%)	1.411 (0,53%)	71 (30,6%)
Л.Н. Толстой	279.448 (100%)	2.276 (0,81%)	56 (24,1%)
Б. Акунин и др.	379.277 (100%)	2.935 (0,77%)	82 (35,3%)
«ДИАЛОГ-2006»	305.742 (100%)	810 (0,26%)	49 (21,1%)
*Среднее количество*	307.77 (100%)	0,59%	27,8%

В сравнении с данными таблицы 1, средний процент вхождения «Ё»-омографов значительно ниже и составил 0,59%, что соответствует их общему количеству. Однако, если сравнить отношение количества всех пар омографов к количеству «Ё»-омографов: 3894/232=16,8 и соответствующее отношение процентов их вхождения в тексты: 3,15/ 0,59=5,3, то можно отметить более чем 5-ти кратную частотность «Ё»-омографов, а, следовательно, существенную важность разрешения этого вида омографии при синтезе речи. Как и в случае таблицы 1, только порядка 30% от общего многообразия всех «Ё»-омографических пар встречается в проанализированных текстах.

В таблице 3 приведены дифференциальные характеристики статистического анализа текстов по всей совокупности омографов (первые 15 наиболее частотных пар омографов), содержащихся в словаре [2]. Как видно из таблицы, во всех художественных текстах пара «Ё»-омографов слова «все» выдвинулась на 1-е место. В специфическом научном тексте «Диалог-06» омограф «все» уступил 1-е место, к нашему удовольствию, омографу «слова». Из таблицы видно также, что и некоторые другие «Ё»-омографы вошли в число наиболее частотных: «перед, всем». На рисунке 1 графически представлены распределения количества встречаемости в различных текстах 10-ти наиболее частотных пар омографов. Из рис. 1 видно, что пары омографов наиболее равномерно распределены (а, следовательно, наиболее информативны!) в стихотворных произведениях А.С. Пушкина и в научных трудах участников «ДИАЛОГа».

Таблица 3. Результаты теста по всем омографам

А.С. Пушкин		Л.Н. Толстой		Б. Акунин		Диалог-06
*все*	458	*все*	1670	*все*	1963	слова	735
уж	436	уже	601	уже	811	*все*	433
уже	361	надо	376	потом	555	уже	247
*перед*	214	потом	229	уж	345	связи	184
моя	204	глаза	211	глаза	328	части	133
*всем*	132	слова	173	надо	319	корпуса	133
глаза	126	уж	164	руки	270	стороны	125
сердца	120	тому	144	*перед*	265	правила	124
слова	113	голову	143	голову	198	правило	118
потом	112	руки	143	дома	168	оно	114
ночи	108	*всем*	125	*всем*	141	*перед*	105
тому	98	дома	124	самом	137	тона	103
пора	95	лица	112	слова	127	рода	101
души	95	дела	100	моя	123	второй	93
мою	92	должно	91	двери	109	свойства	91

Рис.1. Распределения встречаемости пар омографов в различных текстах

В таблице 4 приведены дифференциальные статистические характеристики текстов – первые 15 наиболее частотных пар «Ё»-омографов, содержащихся в словаре [2]. Как и ожидалось 1-е места во всех текстах заняла пара омографов «все». Соответствующие таблице графичекие распределения представлены на рис. 2.

Таблица 4. Результаты теста по «Ё»-омографам

А.С. Пушкин		Л.Н. Толстой		Б. Акунин		Диалог-06
*все*	458	*все*	1670	*все*	1963	*все*	433
*перед*	214	*всем*	125	*перед*	265	*перед*	105
*всем*	132	*жены*	78	*всем*	141	*всем*	41
*слезы*	92	*слезы*	53	*слезы*	56	объем	39
небо	50	*села*	45	*чем-то*	37	падеж	36
*села*	42	*перед*	35	*небо*	34	пометы	20
*жены*	37	*чем-то*	32	*села*	32	*небо*	14
*берег*	29	*сестры*	27	щеки	28	помет	12
лета	28	умел	22	*жены*	26	*берег*	10
весны	23	чем-нибудь	17	*сестры*	23	*чем-то*	9
умел	22	*небо*	14	счета	21	ребра	7
*небо*	21	щеки	11	умел	17	запрет	7
смел	18	звезды	9	стекла	17	*жены*	6
небом	15	весел	9	небе	14	полет	6
небе	14	весны	8	осел	14	черта	6
берет	13	черта	8	черта	13	села	4

Рис.2. Распределения встречаемости пар «Ё»- омографов в различных текстах

2. Статистические характеристики распределений внутри пар «Ё»-омографов

Для определения статистических характеристик распределений внутри пар «Ё»-омографов использовались результаты описанного выше статистического анализа дифференциальных характеристик пар «Ё»-омографов и данные Интернет ресурса [3] “Поиск по акцентуированному корпусу”. Вначале из таблицы 4 были отобраны 10 наиболее частотных пар «Ё»-омографов по всем рассмотренным выше 4-м текстам (помечены жирным шрифтом в табл. 4) и подсчитаны суммарные количества их встречаемости (см. столбец 2 таблицы 5 и рис.3). Затем для этих слов с помощью Интернет ресурса [3] в Корпусе текстов по драматургии, беллетристике, публицистике и научно-популярной литературе определены суммарные количества их встречаемости (см. столбец 3 таблицы 5 и рис. 3). В столбцах 4, 5 приведены результаты встречаемости в Корпусе [3] «Ё» и «Е» слов (см. также рис. 4), в столбцах 6, 7 – соотношение количества слов с «Ё» и «Е» в процентах внутри пар «Ё»-омографов (см. также рис. 5).

Таблица 5. Парная и внутрипарная встречаемость «Ё»-омографов

Пара «Ё»-омографов	Кол. пар в 4-х текстах	Кол. пар в Корпусе	Кол. Ё-слов в Корпусе	Кол. Е-слов в Корпусе	Соотношение внутри пар
Пара «Ё»-омографов	Кол. пар в 4-х текстах	Кол. пар в Корпусе	Кол. Ё-слов в Корпусе	Кол. Е-слов в Корпусе	% кол. «Ё»	% кол.«Е»
1	2	3	4	5	6	7
*все*	4524	5970	4143	1826	100	44
*перед*	620	640	0	640	0	100
*всем*	440	505	109	362	28	100
*слезы*	200	60	60	1	100	2
*села*	120	64	2	62	3	100
*небо*	100	126	0	126	0	100
*чем-то*	80	123	53	70	75,7	100
*жены*	64	49	14	35	40	100
*сестры*	52	34	24	10	100	42
*берег*	40	85	4	81	5	100

Рис.3. Распределения встречаемости 10-ти наиболее частотных пар «Ё»-омографов

Рис. 4. Распределения кол. слов с «Ё» (ряд 1)- и «Е»(Ряд 2) внутри пар «Ё»-омографов

Рис. 5. Соотношения кол. слов в % с «Ё» (Ряд 1) и «Е» (Ряд 2) внутри пар «Ё»-омографов

3. Некоторые правила разрешения «Ё»- омографической неопределённости

Анализируя результаты, приведенные в таблице 5 и на рис. 3 – 4, можно сделать следующие выводы.

1. Как видно из табл. 5 (столбцы 2 и 3) использованная для статистического анализа выборка Текстов (А.С. Пушкин – стихотворные произведения, Л.Н. Толстой – роман «Анна Каренина, Борис Акунин, Дина Рубина, Людмила Петрушевская – современная проза, Труды конференции «ДИАЛОГ-2006» - научная проза) является достаточно представительной и сравнимой по объёму с Корпусом текстов по драматургии, беллетристике, публицистике и научно-популярной литературе, представленном в [3].

2. Полученные распределения встречаемости 10-ти наиболее частотных пар «Ё»-омографов в изученных Текстах и в Корпусе в высокой степени подобны (см. рис. 3), что говорит о достаточной степени достоверности полученных данных.

3. Из рис. 3 и 4 следует, что подавляющее количество «Ё»-омографов как Текстах, так и в Корпусе приходится на пару омографов «ВСЕ», что подчёркивает исключительную важность нахождения правил их разрешения при синтезе речи.

4. Из табл. 5 (столбцы 6, 7), а также из рис. 5 видно, что в 5-ти из 10-ти наиболее частотных пар «Ё»-омографов появление той или иной реализации омографа в паре более или менее равновероятно ( пары: ВСЁ_ВСЕ, ВСЁМ_ВСЕМ, ЧЁМ-ТО_ЧЕМ-ТО, ЖЁНЫ_ЖЕНЫ, СЁСТРЫ_СЕСТРЫ). В оставшихся 5-ти парах с высокой степенью достоверностью можно выбирать варианты: ПЕРЕД, СЛЁЗЫ, СЕЛА, НЕБО, БЕРЕГ.

5. Для пар омографов: ВСЁМ_ВСЕМ, ЧЁМ-ТО_ЧЕМ-ТО, слова с «Ё» с высокой степенью достоверностью могут быть определены по наличию перед ними предлогов «о», «об» или «обо».

6. Для пар омографов: ЖЁНЫ_ЖЕНЫ, СЁСТРЫ_СЕСТРЫ, слова с «Ё» могут быть определены по их пренадлежности к существительным множественного числа.

7. Наибольшую трудность представляет разрешение омографической неопределённости для слов ВСЁ_ВСЕ.

3.1.1. «ВСЁ» или «ВСЕ»?

Для разрешения омографической неопределённости пары ВСЁ_ВСЕ можно использовать некоторые эмпирически найденные контекстуальные правила, работающие с достаточно высокой степенью достоверностью. Для этой цели был проведен выборочный анализ встречаемости слов ВСЁ и ВСЕ в сочетании с другими словами в романе Б. Акунина «Азазель», содержащего 55 тыс. слов. Было подсчитаны количество сочетаний слова ВСЁ с различными словами или знаками препинания при условии, что слово ВСЕ ни разу не встретилось в тех же сочетаниях. Получены следующие наиболее частотные сочетания этого вида:

· ВСЁ+Любой Знак Препинания – 24 раза

· ВСЁ+РАВНО – 21раз

· ВСЁ+ ЭТО – 11 раз

· ВСЁ+ТАК(ТОТ, ТЕМ) ЖЕ – 9 раз

· ВСЁ ВРЕМЯ – 5 раз

· ВСЁ ЕЩЁ – 4 раза

· ВСЁ БЫЛО – 3 раза

· ВСЁ МОЖЕТ – 3 раза.

Определено также около 30 других сочетаний такого рода, встретившихся от 1-го до 2-х раз в проанализированном тексте.

Для более глубокого анализа возможностей разрешения омографической неопределённости пары ВСЁ_ВСЕ на том же тексте были проведены эксперименты с использованием синтаксического разбора предложений с использованием разработанной в Институте проблем передачи информации РАН системы ЭТАП-3, которая для каждого предложения строит синтаксическую струкутуру в виде дерева зависимостей [4]. На рис. 6 – 8 приведены примеры правильного синтаксического разбора предложения со словом ВСЁ. При правильном разборе омограф ВСЁ маркируется либо как местоимение-существительное (S) единственного числа среднего рода (рис.6), либо как местоимение-прилагательное (А) единственного числа среднего рода (рис. 7), либо как частица (PART), играющая роль ограничителя (рис. 8).

Рис. 6. Пример 1 правильного синтаксического разбора предложения со словом ВСЁ

Рис. 7. Пример 2 правильного синтаксического разбора предложения со словом ВСЁ

Рис. 8. Пример 3 правильного синтаксического разбора предложения со словом ВСЁ

На рис. 9 – 10 приведены примеры правильного синтаксического разбора предложения со словом ВСЕ. При правильном разборе омограф ВСЕ маркируется всегда как местоимение-существительное (A) множественного числа.

Рис. 9. Пример 1 правильного синтаксического разбора предложения со словом ВСЕ

Рис. 10. Пример 2 правильного синтаксического разбора предложения со словом ВСЕ

На рис. 11 и 12 приведены примеры неправильного синтаксического разбора предложения со словом ВСЁ. В этих примерах слово ВСЁ ошибочно распознано как ВСЕ , т.е. как местоимение-прилагательное (рис.11), либо как местоимение-существительное (рис.12) множественного числа.

Рис. 11. Пример 1 неправильного синтаксического разбора предложения со словом ВСЁ

Рис. 12. Пример 2 неправильного синтаксического разбора предложения со словом ВСЁ

В заключение заметим, что при использовании системы ЭТАП-3 на всём протестированном тексте (роман Б. Акунина «Азазель»), в котором присутствовало 123 вхождения омографа ВСЕ, обнаружено лишь 5 ошибочных отнесений слова ВСЁ к слову ВСЕ, т.е. только 4% ошибочного распознавания!

Заключение

Однозначного ответа на вопрос, поставленный в качестве эпиграфа к этой статье, пока не существует. Однако, с уверенностью можно сказать, что полное алгоритмическое решение задачи расстановки недостающих точек над «Ё» наступит не ранее, чем в полной мере будут решены проблемы морфологического, синтаксического, семантического и прагматического анализа текстов. Например, как понять: ВСЁ ДЕРЬМО, или ВСЕ ДЕРЬМО? Система «ЭТАП» говорит, что ВСЁ.

В заключение хочу выразить искреннею благодарность Елене Ягуновой за предоставление словаря омографов [2] и за подсказку использовать в работе Интернет ресурс [3]. И, наконец, но не в последнюю очередь, Леониду Иомдину за предоставленную мне возможность использования синтаксического анализатора «ЭТАП-3» в ходе выполнения данной работы.

Список литературы

Д.Э. Розенталь, М.А. Теленкова. Словарь-справочник лингвистических терминов // Изд. «Просвещение», М. 1976, 543 с..
А.В. Венцов и др. Словарь омографов русского языка // Изд. СПбГУ, Санкт-Петербург, 2004, 160 с.
Национальный корпус русского языка “Поиск по акцентуированному корпусу” // Интернет ресурс: http://www.narusco.ru
И.М. Богуславский, Л.Л.Иомдин, Д.Р. Валеев, В.Г. Сизов. Синтаксический анализатор системы ЭТАП и его оценка с помощью глубоко размеченного корпуса русских текстов // Труды Международной конференции <Корпусная лингвистика -2008>. СПб.: Санкт-Петербургский государственный университет, 2008. С. 56-74.