ПРОБЛЕМА РАЗРЕШЕНИЯ «Ё»-ОМОГРАФОВ ПРИ СИНТЕЗЕ РЕЧИ ПО
ТЕКСТУ
THE PROBLEM OF THE «Ё»-HOMOGRAPHS RESOLUTION IN TEXT-TO-SPEECH SYNTHESIS“
Лобанов Б.М. (lobanov@newman.bas-net.by),
Объединенный институт
проблем информатики НАН Беларуси, Минск, Беларусь
В статье рассматривается проблема адекватного
разрешения неопределенностей в системах синтеза речи по тексту, связанных с частным
случаем омонимии – графической «Ё»-омонимией. Рассмотрены статистические
характеристики омографических пар, в том числе «Ё»-омографов. Исследованы статистические
характеристики распределений внутри наиболее часто встречающихся пар
«Ё»-омографов. Обсуждаются пути разрешения наиболее частотной омографической
пары «ВСЁ» и «ВСЕ».
“Когда же расставите точки над
«ё»? Ё моё!!! ”
LobanoPhone - 2000
Введение
Проблема адекватного разрешения неопределенностей,
связанных с омонимией, играет существенную роль в решении задач распознавания и
синтеза речи. Наиболее важное значение эта проблема приобретает
при решении задач преобразования «речь – текст» (распознавание речи), когда
существенным является разрешение почти всех видов омонимии: синтаксической,
грамматической, лексической, словообразовательной и фонетической (см. словарь
лигвистических терминов [1]). Только один вид омонимии - графическая омонимия,
не играет роли в решении задач распознавания речи. Зато этот единственный вид
омонимов, называемых омографами, играет весьма существенную роль в задачах преобразования
«текст – речь» (синтез речи). Игнорирование существования омографов нарушает
смысловое восприятие синтезированной речи и дополнительно ухудшает её
естественность. Нам не известно ни одной
работы, направленной на анализ и решение проблемы адекватного разрешения
неопределенностей при синтезе русской речи по тексту, связанных с
существованием омографов. В данной работе мы попытаемся в какой-то степени
заполнить этот пробел, опираясь на фактический материал, представленный в словаре
омографов русского языка [2].
В русском языке существуют два источника графической омонимии:
вариативность словесного ударения, местоположение которого в письменной
речи не указывается (СУ- омографы), и письменная традиция не обязательного
проставления необходимых точек на букве «Ё» («Ё»-омографы). Литера «Ё» была предложена княгиней Екатериной
Дашковой в 1783 году, а в печати употреблена в 1795 году.
Отдельной буквой она долгое время не считалась и в азбуку официально не входила.
В русском языке буква «Ё» используется, чаще всего в тех позициях, где
произношение [(j)o] образовалось из [(j)e], чем и объясняется производная от «Е»
форма буквы, хотя с точки зрения фонетики логичней было бы поставить точки не
над «Е», а над «О». Букве "Ё" - 225 лет. Хотя она родилась в Санкт Петербурге, однако 20 октября 2001 года в Ульяновске открылся единственный в
мире памятник букве "Ё" (см. фото).
Существует много различных мнений, как в
пользу, так и против непременного использования буквы «Ё» в печатном тексте
(см. :http://www.yomaker.ru/). С нашей позиции – позиции разработчиков систем синтеза
речи по тексту – отсутствие в тексте «Ё» влечёт за собой дополнительные
трудности, которые должны быть разрешены в той или иной степени. Простейшее решение – игнорирование проблемы –
влечёт за собой дополнительные трудности в восприятии синтезированной речи и к
раздражающему слух Е-канию. Данная работа посвящена исследованию
статистических закономерностей проявления «Ё»-омонимии в различных текстах, а
также обсуждению вопросов разрешения связанных с ней неопределённостей.
1.
Статистические
характеристики омографических пар
Статистические
исследования проводились с использованием специально разработанной программы “HOMOGRAPH STATISTICS” и электронного словаря омографов,
созданного на основе книжного словаря [2].
Целью исследования являлось определение
статистической значимости «Ё»-омографов в общем списке «СУ»- и «Ё»-омографов
[2], а также выявление особенностей
статистических распределений только внутри подкласса «Ё»-омографов. Общее
количество омографов, в соответствии с приведенными в [2] данными,
составляет 3894 пар, из них
«Ё»-омографов – только 232 пары.
Cтатистические характеристики определялись в отдельности для
достаточно представительных и различных типов текстов:
·
А.С.
Пушкин – стихотворные произведения,
·
Л.Н.
Толстой – роман «Анна Каренина,
·
Б.
Акунин, Д. Рубина, Л. Петрушевская – современная проза,
·
Труды
конференции «ДИАЛОГ-2006» - научная проза.
В
таблице 1 приведены интегральные статистические характеристики этих текстов по
всей совокупности омографов, содержащихся в словаре [2].
Таблица
1. Результаты теста по всем омографам
Тип текста |
Общее количество слов в тексте |
Общее количество пар омографов |
Число различных пар омографов |
Словарь омографов [2] |
- |
3894 (100%) |
3894 (100%) |
А.С. Пушкин |
266.726 (100%) |
9.421 (3,53%) |
827 (21,2 %) |
Л.Н. Толстой |
279.448 (100%) |
8.747 (3,13%) |
680 (17,5%) |
Б. Акунин и
др. |
379.277 (100%) |
13.630 (3,59%) |
1088 (27,9%) |
«ДИАЛОГ-2006» |
305.742 (100%) |
7.195 (2,35%) |
563 (14,5%) |
Среднее
количество |
307.775 (100%) |
3,15% |
20,3% |
Как видно из таблицы 1, выбранные тексты различных
жанров имеют примерно одинаковый объём, в среднем – около 300 тыс. слов.
Средний процент вхождения омографов составил 3,15%. Если считать, что среднее
число слов на странице равно 650, то
около 20-ти слов могут оказаться омографами. В случае их неадекватного
раскрытия, как показывает опыт, это приводит к весьма негативному впечатлению
при прослушивании синтезированной речи. Из таблицы видно также, что наибольшее количество омографов
встречается в современной прозе, а наименьшее – в научном тексте. Очень
интересный факт вытекает при рассмотрении 4-го столбца таблицы: всего только
порядка 20% от общего многообразия всех омографических пар встречается в
проанализированных текстах! Это указывает на первостепенную важность этого
подмножества в решении задач разрешения омографии.
В
таблице 2 приведены статистические характеристики 4-х классов текстов по
совокупности пар «Ё»-омографов, содержащихся в словаре [2].
Таблица
2. Результаты теста по «Ё»-омографам
Тип текста |
Общее количество слов в тексте |
Общее количество пар «Ё»-омографов |
Число различных пар «Ё»-омографов |
Словарь омографов [2] |
- |
232 (100%) |
232 (100%) |
А.С. Пушкин |
266.726 (100%) |
1.411 (0,53%) |
71 (30,6%) |
Л.Н. Толстой |
279.448 (100%) |
2.276 (0,81%) |
56 (24,1%) |
Б. Акунин и
др. |
379.277 (100%) |
2.935 (0,77%) |
82 (35,3%) |
«ДИАЛОГ-2006» |
305.742 (100%) |
810 (0,26%) |
49 (21,1%) |
Среднее
количество |
307.77 (100%) |
0,59% |
27,8% |
В
сравнении с данными таблицы 1, средний процент вхождения «Ё»-омографов
значительно ниже и составил 0,59%, что соответствует их общему количеству.
Однако, если сравнить отношение количества всех пар омографов к количеству
«Ё»-омографов: 3894/232=16,8 и соответствующее отношение процентов их
вхождения в тексты: 3,15/ 0,59=5,3, то
можно отметить более чем 5-ти кратную частотность «Ё»-омографов, а,
следовательно, существенную важность разрешения этого вида омографии при
синтезе речи. Как и в случае таблицы 1, только порядка 30% от общего
многообразия всех «Ё»-омографических пар встречается в проанализированных
текстах.
В таблице 3 приведены дифференциальные
характеристики статистического анализа текстов по всей совокупности омографов
(первые 15 наиболее частотных пар омографов), содержащихся в словаре [2]. Как видно из
таблицы, во всех художественных текстах пара «Ё»-омографов слова «все»
выдвинулась на 1-е место. В специфическом научном тексте «Диалог-06» омограф
«все» уступил 1-е место, к нашему удовольствию, омографу «слова».
Из таблицы видно также, что и некоторые другие «Ё»-омографы вошли в число
наиболее частотных: «перед, всем». На рисунке 1 графически представлены
распределения количества встречаемости в различных текстах 10-ти наиболее
частотных пар омографов. Из рис. 1 видно, что пары омографов
наиболее равномерно распределены (а, следовательно, наиболее информативны!)
в стихотворных произведениях А.С. Пушкина и в научных трудах участников «ДИАЛОГа».
Таблица 3. Результаты теста
по всем омографам
А.С. Пушкин |
Л.Н. Толстой |
Б. Акунин |
Диалог-06 |
||||
все |
458 |
все |
1670 |
все |
1963 |
слова |
735 |
уж |
436 |
уже |
601 |
уже |
811 |
все |
433 |
уже |
361 |
надо |
376 |
потом |
555 |
уже |
247 |
перед |
214 |
потом |
229 |
уж |
345 |
связи |
184 |
моя |
204 |
глаза |
211 |
глаза |
328 |
части |
133 |
всем |
132 |
слова |
173 |
надо |
319 |
корпуса |
133 |
глаза |
126 |
уж |
164 |
руки |
270 |
стороны |
125 |
сердца |
120 |
тому |
144 |
перед |
265 |
правила |
124 |
слова |
113 |
голову |
143 |
голову |
198 |
правило |
118 |
потом |
112 |
руки |
143 |
дома |
168 |
оно |
114 |
ночи |
108 |
всем |
125 |
всем |
141 |
перед |
105 |
тому |
98 |
дома |
124 |
самом |
137 |
тона |
103 |
пора |
95 |
лица |
112 |
слова |
127 |
рода |
101 |
души |
95 |
дела |
100 |
моя |
123 |
второй |
93 |
мою |
92 |
должно |
91 |
двери |
109 |
свойства |
91 |
Рис.1.
Распределения
встречаемости пар омографов в различных текстах
В
таблице 4 приведены дифференциальные статистические характеристики текстов –
первые 15 наиболее частотных пар «Ё»-омографов, содержащихся в словаре [2]. Как и ожидалось 1-е
места во всех текстах заняла пара омографов «все». Соответствующие
таблице графичекие распределения представлены на рис. 2.
Таблица 4. Результаты теста по
«Ё»-омографам
А.С.
Пушкин |
Л.Н.
Толстой |
Б.
Акунин |
Диалог-06 |
||||
все |
458 |
все |
1670 |
все |
1963 |
все |
433 |
перед |
214 |
всем |
125 |
перед |
265 |
перед |
105 |
всем |
132 |
жены |
78 |
всем |
141 |
всем |
41 |
слезы |
92 |
слезы |
53 |
слезы |
56 |
объем |
39 |
небо |
50 |
села |
45 |
чем-то |
37 |
падеж |
36 |
села |
42 |
перед |
35 |
небо |
34 |
пометы |
20 |
жены |
37 |
чем-то |
32 |
села |
32 |
небо |
14 |
берег |
29 |
сестры |
27 |
щеки |
28 |
помет |
12 |
лета |
28 |
умел |
22 |
жены |
26 |
берег |
10 |
весны |
23 |
чем-нибудь |
17 |
сестры |
23 |
чем-то |
9 |
умел |
22 |
небо |
14 |
счета |
21 |
ребра |
7 |
небо |
21 |
щеки |
11 |
умел |
17 |
запрет |
7 |
смел |
18 |
звезды |
9 |
стекла |
17 |
жены |
6 |
небом |
15 |
весел |
9 |
небе |
14 |
полет |
6 |
небе |
14 |
весны |
8 |
осел |
14 |
черта |
6 |
берет |
13 |
черта |
8 |
черта |
13 |
села |
4 |
Рис.2.
Распределения встречаемости пар
«Ё»- омографов в различных текстах
2. Статистические характеристики распределений внутри
пар «Ё»-омографов
Для
определения статистических характеристик распределений внутри пар «Ё»-омографов
использовались результаты описанного выше статистического
анализа дифференциальных характеристик пар «Ё»-омографов и данные Интернет ресурса [3] “Поиск по акцентуированному корпусу”.
Вначале из таблицы 4 были отобраны 10 наиболее частотных пар «Ё»-омографов по
всем рассмотренным выше 4-м
текстам (помечены жирным шрифтом в табл. 4) и подсчитаны суммарные
количества их встречаемости (см. столбец 2 таблицы 5 и рис.3). Затем для этих
слов с помощью Интернет ресурса [3] в Корпусе
текстов по драматургии, беллетристике, публицистике и научно-популярной
литературе определены суммарные количества их
встречаемости (см. столбец 3 таблицы 5 и рис. 3). В столбцах 4, 5
приведены результаты встречаемости в Корпусе [3] «Ё» и «Е» слов (см. также рис.
4), в столбцах 6, 7 – соотношение количества
слов с «Ё» и «Е» в процентах внутри пар «Ё»-омографов (см. также рис. 5).
Таблица 5. Парная и внутрипарная встречаемость «Ё»-омографов
Пара «Ё»-омографов |
Кол. пар в 4-х текстах |
Кол. пар в Корпусе |
Кол. Ё-слов в Корпусе |
Кол. Е-слов в Корпусе |
Соотношение внутри пар |
|
% кол. «Ё» |
% кол.«Е» |
|||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
все |
4524 |
5970 |
4143 |
1826 |
100 |
44 |
перед |
620 |
640 |
0 |
640 |
0 |
100 |
всем |
440 |
505 |
109 |
362 |
28 |
100 |
слезы |
200 |
60 |
60 |
1 |
100 |
2 |
села |
120 |
64 |
2 |
62 |
3 |
100 |
небо |
100 |
126 |
0 |
126 |
0 |
100 |
чем-то |
80 |
123 |
53 |
70 |
75,7 |
100 |
жены |
64 |
49 |
14 |
35 |
40 |
100 |
сестры |
52 |
34 |
24 |
10 |
100 |
42 |
берег |
40 |
85 |
4 |
81 |
5 |
100 |
Рис.3. Распределения встречаемости 10-ти наиболее
частотных пар «Ё»-омографов
Рис. 4. Распределения кол. слов с «Ё» (ряд 1)- и «Е»(Ряд
2) внутри пар «Ё»-омографов
Рис. 5. Соотношения кол. слов в % с «Ё» (Ряд 1) и «Е»
(Ряд 2) внутри пар «Ё»-омографов
3. Некоторые
правила разрешения «Ё»- омографической неопределённости
Анализируя результаты,
приведенные в таблице 5 и на рис. 3 – 4, можно сделать следующие выводы.
1.
Как
видно из табл. 5 (столбцы 2 и 3) использованная для статистического анализа выборка
Текстов (А.С. Пушкин – стихотворные
произведения, Л.Н. Толстой – роман «Анна Каренина, Борис Акунин, Дина Рубина, Людмила
Петрушевская – современная проза, Труды конференции «ДИАЛОГ-2006» - научная
проза) является достаточно представительной и сравнимой по объёму с Корпусом
текстов по драматургии,
беллетристике, публицистике и научно-популярной литературе, представленном в [3].
2.
Полученные
распределения встречаемости 10-ти наиболее частотных пар «Ё»-омографов в
изученных Текстах и в Корпусе в высокой степени
подобны (см. рис. 3), что говорит о достаточной степени достоверности
полученных данных.
3.
Из
рис. 3 и 4 следует, что подавляющее количество «Ё»-омографов как Текстах,
так и в Корпусе приходится на пару омографов «ВСЕ», что
подчёркивает исключительную важность нахождения правил их разрешения при
синтезе речи.
4.
Из
табл. 5 (столбцы 6, 7), а также из рис. 5 видно, что в 5-ти из 10-ти наиболее
частотных пар «Ё»-омографов появление той или иной реализации омографа в паре
более или менее равновероятно ( пары: ВСЁ_ВСЕ, ВСЁМ_ВСЕМ, ЧЁМ-ТО_ЧЕМ-ТО,
ЖЁНЫ_ЖЕНЫ, СЁСТРЫ_СЕСТРЫ). В оставшихся 5-ти парах с высокой степенью
достоверностью можно выбирать варианты: ПЕРЕД, СЛЁЗЫ, СЕЛА, НЕБО, БЕРЕГ.
5.
Для пар омографов: ВСЁМ_ВСЕМ, ЧЁМ-ТО_ЧЕМ-ТО, слова с «Ё» с высокой
степенью достоверностью могут быть определены по наличию перед ними предлогов «о»,
«об» или «обо».
6.
Для пар омографов: ЖЁНЫ_ЖЕНЫ, СЁСТРЫ_СЕСТРЫ, слова с «Ё» могут быть
определены по их пренадлежности к существительным множественного числа.
7.
Наибольшую трудность представляет разрешение омографической
неопределённости для слов ВСЁ_ВСЕ.
3.1.1. «ВСЁ» или «ВСЕ»?
Для разрешения
омографической неопределённости пары ВСЁ_ВСЕ
можно использовать некоторые эмпирически найденные контекстуальные правила,
работающие с достаточно высокой степенью достоверностью. Для этой цели был
проведен выборочный анализ встречаемости слов ВСЁ и ВСЕ
в сочетании с другими словами в романе Б. Акунина «Азазель», содержащего 55
тыс. слов. Было подсчитаны количество сочетаний слова ВСЁ с различными
словами или знаками препинания при условии, что слово ВСЕ ни разу не
встретилось в тех же сочетаниях. Получены следующие наиболее частотные
сочетания этого вида:
·
ВСЁ+Любой Знак Препинания – 24 раза
·
ВСЁ+РАВНО – 21раз
·
ВСЁ+ ЭТО – 11
раз
·
ВСЁ+ТАК(ТОТ, ТЕМ) ЖЕ – 9 раз
·
ВСЁ ВРЕМЯ – 5
раз
·
ВСЁ ЕЩЁ – 4 раза
·
ВСЁ БЫЛО – 3
раза
·
ВСЁ МОЖЕТ – 3 раза.
Определено
также около 30 других сочетаний такого рода, встретившихся от 1-го до 2-х раз в
проанализированном тексте.
Для более глубокого анализа возможностей
разрешения омографической неопределённости пары ВСЁ_ВСЕ на том же тексте были проведены эксперименты с
использованием синтаксического разбора предложений с использованием
разработанной в Институте проблем передачи информации РАН системы ЭТАП-3, которая для каждого
предложения строит синтаксическую струкутуру в виде дерева зависимостей [4]. На рис. 6 – 8 приведены примеры правильного синтаксического разбора
предложения со словом ВСЁ. При правильном разборе омограф ВСЁ маркируется либо как местоимение-существительное
(S) единственного числа среднего рода (рис.6), либо как
местоимение-прилагательное (А) единственного числа среднего рода (рис. 7), либо
как частица (PART), играющая роль ограничителя (рис.
8).
Рис. 6. Пример 1 правильного синтаксического разбора
предложения со словом ВСЁ
Рис. 7. Пример 2 правильного синтаксического разбора
предложения со словом ВСЁ
Рис.
8. Пример 3 правильного синтаксического разбора предложения со словом ВСЁ
На рис. 9 – 10 приведены примеры правильного синтаксического разбора предложения со словом ВСЕ. При правильном разборе омограф ВСЕ маркируется всегда как местоимение-существительное (A) множественного числа.
Рис.
9. Пример 1 правильного синтаксического разбора предложения со словом ВСЕ
Рис.
10. Пример 2 правильного синтаксического разбора предложения со словом ВСЕ
На рис. 11 и 12 приведены примеры неправильного синтаксического разбора
предложения со словом ВСЁ. В этих примерах слово ВСЁ ошибочно распознано как ВСЕ , т.е. как местоимение-прилагательное (рис.11), либо как местоимение-существительное
(рис.12) множественного числа.
Рис. 11. Пример 1 неправильного синтаксического
разбора предложения со словом ВСЁ
Рис.
12. Пример 2 неправильного синтаксического разбора предложения со словом ВСЁ
В заключение заметим, что при
использовании системы ЭТАП-3 на всём протестированном тексте (роман Б. Акунина
«Азазель»), в котором присутствовало 123 вхождения омографа ВСЕ, обнаружено лишь 5
ошибочных отнесений слова ВСЁ
к слову ВСЕ, т.е. только
4% ошибочного распознавания!
Заключение
Однозначного ответа на вопрос, поставленный в качестве
эпиграфа к этой статье, пока не существует. Однако, с уверенностью можно
сказать, что полное алгоритмическое решение задачи расстановки недостающих
точек над «Ё» наступит не ранее, чем в полной мере будут решены проблемы
морфологического, синтаксического, семантического и прагматического анализа
текстов. Например, как понять: ВСЁ ДЕРЬМО, или ВСЕ ДЕРЬМО? Система
«ЭТАП» говорит, что ВСЁ.
В заключение хочу выразить искреннею благодарность Елене Ягуновой
за предоставление словаря омографов [2] и за подсказку использовать в работе Интернет
ресурс [3]. И, наконец, но не в последнюю очередь, Леониду Иомдину
за предоставленную мне возможность использования
синтаксического анализатора «ЭТАП-3» в ходе выполнения данной работы.
Список литературы