Проблемы оцифровывания лексикографического текста (на материале словаря санскрита)

Проблемы оцифровывания лексикографического текста (на материале словаря Монье-Вилямса) Марцис Ю. Гасунс, Рига-Москва, Общество Востоковедов РАН, 2006 г.

Данное сообщение посвящено проблемам (1) правки неточностей и упущений, проблемам (2) логической структуры ранее распознанного текста и проблемам, которые связаны с (3) „прозрачным“ оформлением материала. Проблемы, часть из которых, возможно, останутся нерешенными из-за сравнительно небольшого спроса[1], в данном случае, на слоговое письмо дэванагари[2], косвенно указывают на нашу неготовность к интеграции и прочих языков Азии и Африки (как, например, арабского) в систему „Lingvo“.

„Словарь санскрита“, который находиться в бесплатном распространении (и в то же время совместим исключительно с полной версией данной платформы) для „ABBYY Lingvo 10 Multilingual Dictionary“, во многом превосходит конкурентов, как, например, „Тибето-(санскрито)-Литовский словарь“ Альгирда Кугевициуса на платформе „Pop-up Dictionary 4.7“, но и там, и тут наблюдается целый ряд недостатков чисто технического порядка. Преимущества „Lingvo“ нам хорошо известны, я же постараюсь осветить проблемные стороны, часть из которых с течением времени никак не решалась не теперь, ни когда либо ранее.

Мы вязли за основу данного исследования хорошо известный среди специалистов словарь санскрита, но не менее проблематичными оказываются и прочие мёртвые языки данного географического ареала, впрочем как и живые языки, использующие, к примеру, схожие по сложности письменности, при наборе которых к окне пользователя словаря ABBYY в программе происходит сбой.

Ровно десять лет тому назад в Мекке индийских гуманитарных исследований, в германском Институте индологии и тамильских исследований была завершена первая (ок. ¼) фаза работы над оцифровкой тетралогии фундаментальных словарей санскрита. Докт. Томас Мальтен (Thomas Malten, Universität zu Köln), руководитель проекта, столь любезно предоставивший мне еще неопубликованные материалы к санскритским словарям, ставил себе две простых задачи, но и они остались не по силам его хорошо оплачиваемой и технически оснащенной рабочей команде:

¶ легкий доступ к данным (рассчитанный на человека)

¶ автоматическая разметка оригинальных текстов (на PC)

Работа затянулась (частично из-за обилия и сложности аббревиатур) из-за чего унификации четырех словарей (кроме словаря Монье-Вилямса[3] еще и наполовину набранный Маленькый Петербургский[4], пандита Щивамана Апте[5] и дополнениям Рихарда Шмита к Петербургским словарям акад. Отто Бётлинга), как не дано было осуществится и слитию их с тамильским словником (117 773 вокабул), собранным на более ранном этапе работы. Немецким исследователям (и их американским и индийским консультантам) даже частично не удалось „не внося изменения в сравнительно сложный строй и без потери каких-либо данных“ приготовить легко обозримый человеческому глазу лексикографический текст. Получилась абракадабра, с одной стороны, а с другой стороны, монолит, в котором нельзя системного и координировано вносить поправки из-за отсутствия отдельного редактора для редактирования словарей ABBYY Lingvo, ибо в данном случае макросы расстановки и компиляции словарного файла в приложении MS Word просто-напросто перестают работать с 78 мегабайтным текстовым файлом. Столь же далекой как в первый день осталось пожелание иметь редактируемый словарь, не просто свои отдельные карточки, а возможность добавления собственных примеров или убрать заведомо лишнее для данного пользователя дробление значений.

Сообщение это, рассчитанное в первую очередь на филологов, касается проблем оцифровки „пудового профессионального словаря“ и путям их решения. Электронная версия данного словаря, заметим, сделана „грязновато“, и, из-за отсутствия финансирования, исходный файл еще долго останется невычищенным. Сотрудничество между санскритологами осталось почти на такой же стадии, как поколение тому назад[6], то есть - враждебным и строго кастовым, в то время как, например, Тибетско-русско-английский словарь Ю.Н. Рёриха был отредактирован за гораздо более короткий срок, правда без особой маркировки, что, увы, не облегчает пользование им. Наша главнейшая задача – довести работу до разумного завершения ради блага студентов, несмотря на интриги среди ученых, но сначала попробуем осветить несколько моментов из теоретической части данного процесса.

В такой области как лингвистика, в которой аккуратность значит все, а иначе, от полусырого словаря толку минимально[7], в таком продукте как в словаре, где на каждом шагу „неправильное истолкование, отклонение и пропуски,“ одного лишь общего строя - мало и до сих пор нет автоматического способа (без опасности генерации новых „апечадок“) устранить систематичные ошибки и на основе данного опыта проставить разметку, как в далеком 1994-ом году планировали оптимистически настроенные немецкие исследователи. Если бы языковеды умели, а программисты – знали!

В связи с бурным развитием компьютерных технологий не раз приходилось слышать о (мнимой) устарелости традиционных словарей, однако нашу задачу я вижу как раз не столько в формулировке алгоритма обработки информации для создания компьютерных программ-анализаторов санскрита, которые пока терпят поражение одно за другим [Ingalls 1988; TDIL 1988; Huet 2003; Hellwig 2005], сколько повторить крайне грамотно набранные бумажные издания, но в более удобном для того же поиска формате.

Почему столь важен словарь санскрита, изданный в начале прошлого столетия? Дело в том, что до конца XIX столетия были созданы все те словари, которыми мы пользуемся и по сей день и никаких новшеств, кроме как двух дополнений[8] и одной „выжимки“[9] пока не вышло. Правда вот уже полвека как готовится деканский словарь в г. Пуне[10], но лишь в прошлом году коллективу из 40 поседевших на этом поприще лексикографов удалось достигнуть конца буквы „А,“ которой сколь бы удивительно это не показалось, открывается весь алфавит, а точнее, слоговая азбука нагари. Также вышли уже первых пять томов „Энциклопедического словаря санскрита“[11] и не пройдет и круглых 200 лет, как работа будет полностью завершена или окончательно отброшена. Не обошлось, конечно, и без опечаток, но они, кажется, составляют необходимую принадлежность всех работ индологов[12].

„Цифровой лексикон санскрита при г. Колонье“, в рамках которого был осуществлена первая фаза работы, исходил из трех предпосылок при выборе именно этого однотомника:

1) Его пытались отсканировать еще в 1985 году при Университете Чикаго, но (и тогда, как теперь, когда Кёльнский унив. грозят закрыть) проект не осуществился из-за недостаточного финансирования;

2) Сравнительно быстрая скорость распознавания (при около 70% степени точности) транслитерированного текста (правда, с частичным потерями диакритики, что не так уж безобидно);

3) Крупнейший словник (166 446 вокабул), частично составленный на основе словарей немецких санскритологов, включая так называемый 7-ми томный Петербургский малый словарь.

Следует заметить, что сколь бы то не было весомым аргументом является лишь последний. Ведь это не просто квалифицированно составленная коллекция слов, а особый подход (даже или именно на уровне макета книги) лексикографа с его собственным чутьём языка.

В прошлом году в Берлине (программист Оливер Хэльвиг) в рамках проекта „Indoscript“ пополнил словарь Монье-Вильямса числовыми характеристиками употребительности слов. Но, замечу, как бывало и в других частотных словарях, как, например, Longman’овском „Contemporary English“, „шкала [частотности] не должна быть излишне дробной“ [Еськова 2005: 23]. Ведь все нюансы не отразит даже очень дробная шкала и потребует проведения слишком многих спорных „границ“. Кому тогда поможет такое дотошное деление, кто из нас вспомнит, например, было ли какое-то слово отмечено 3-мя или 4-мя звездочками [Macmillan 2004]? Вместо 5-ти кратного дробления (где „0“ означает отсутствие в уже имеющемся корпусе текстов или слово встречается всего раз, до „5“, что следует читать как „встречается очень часто“), а также отказываясь от использованной в латинских глоссариях звездочки (*) для выделения одноразовых слов, я предлагаю усредненный принцип. Беря за основу то, что, например, 20 слов встречаются более 500 раз, а 80 – всего по 100 раз в каком-либо конкретном памятнике, следует избрать золотую середину и, ориентируясь по усредненным показателям, особо отмечать лишь слова, которые превышают эту планку, но планок этих ни в коем случае не должно быть пять или более того с учетом жанра произведения как в нашем случае, где нельзя провести линию между разговорной и письменной разновидностью языка.

Откуда такая востребованность этого „кирпича“?

Сам автор в свое время ставил выше всего четыре принципа, четыре простых правила, к которым трудно что-либо добавить мне и теперь, как многолетнему пользователю второго, классического издания словаря:

1) Академическая точность;

2) Практическое удобство;

3) Простота (наглядность) построения;

4) Полнота лексического охвата.

Оба Петербургских тезауруса вместе взятые с лексиконом проф. Капеллера (всего 37 413 вокабул) и дополнениями г-на Шмита свободно поместятся на 17 дискетах, ежели заархивированы - займут вдвое меньше места.

Получается, что первоклассного санскритолога от среднего отделяет 15 640 байта бинарных комбинаций.

Структура словаря и особенные символы в Кёльнской разметке (исходник) следующая:

1) парадигма спряжения глагола [d'247];

2) грамматическая характеристика [d'250];

3) краткие цитаты [d'238];

4) замена (ранее приведенного) слова [d'240];

5) значок математического корня (⎷)[d'251];

6) английские сокращения, начинающийся со знака градуса (˚)[d'241];

7) санскритские сокращения, начинающийся со знака градуса (˚)[d'243];

8) сокращения санскритских слов, без пояснений [d'248];

9) индоевропейские этимологии [d'182];

10) соответствующий номер страницы и колонки книги [d'020];

11) ссылки на другие словарные статьи внутри корпуса (cf. Kāma) [d'175].

Как видно, вышеперечисленные рубрики разбросаны по разным семантико-структурным ярусам: иногда лишние, чаще же недостаточно четко отделены друг от друга, не смотря даже на педантический набор метранпажа и продуманное соотношение кеглей оксфордского шрифта „Clarendon“ 2-го издания (в электронной версии, разумеется, шрифты, как и многое другое, унифицированы). Так, например, в список структурирующих элементов рядом со знаком корня (⎷) с таким же успехом можно вынести жирное тире (‒), а, следовательно, наделить (в оцифрованном издании) обоих цветовой маркировкой близких или хотя бы взаимообусловленных оттенков. Что говорить о качестве исходного текстового файла, если даже в простых, недвусмысленных английских словах сплошь и рядом грубейшие опечатки (приведу, наугад, „litñliterature“)?

Вот уже двадцатилетние попытки (с 1985 г.) первичной разметки (166 446 статьей), разметка, которая изначально, в бумажном издании, была призвана отразить утонченную и крайне не случайную структуру отдельных вокабул, санскрито-английского словаря Монье-Вилямса (1899 г.) было упрощено, унифицировано, утрачено, частично, из-за неполадок со шрифтом (так А. Кайдалов использует турецкое „ṡ“ вместо принятой Женевской комиссией транслитерации буквы „ṣ“)[13].

Часть проблем остается нерешенными и по сей день.

Не говоря уже об отсутствии возможности просмотра парадигм, оболочка „Lingvo“ поддерживает отображение символов для интересующих нас древних языков лишь частично (и то лишь после конфигурации самой операционной системы), а сортировка слов по алфавиту (на основе письма брахми), в нашем случае, остается далекой мечтой. Как пишет автор справки (lingvoda.ru) на ресурсе „Ассоциации лексикографов“: „важно правильно указать исходный язык и язык перевода словаря“. Но что делать в нашем случае? Самым территориально близким и пока что пустеющим тэгом в разметке языков является тэг номер „16“ (см. screenshot). Но, даже если очень притягивать за уши, индийские языки вряд ли сойдут за индонезийские (даже если иметь ввиду яз. опыт о-ва Ява, исследованный еще Гумбольдтом). Этот огромный массив языков Юго-Восточной Азии пока что проморгали, как проморгали их, но уже по другим причинам, создатели стандарта Unicode, забывая то тут, то там отдельные знаки из обычного употребления, делая неизбежными отклонения от такого „кривого“ стандарта.

Четыре года тому назад (в 2002 г.) в Москве началась работа над более логичной и визуально понятной разметкой словаря, но на этот раз работу целого научно-исследовательского института взвалил на свои плечи лингвист-любитель, ранее уже упомянутый программист по имени Анатолий Кайдалов, подготовивший в впоследствии не один только этот словарь. Профессиональные и академические учреждения востоковедов, насколько мне известно, отказали ему во всякой помощи (чем к сущему позору, между прочим, страшно гордятся), что не делает им чести, так как современные молодые исследователи пользуются именно электронным изданием, не имея возможности приобрести репринтное издание в дикой по сей день Индии. Могу лишь сказать, что когда я попросил снять бумажную копию словаря, то вернули мне через месяц два переплетенных спиралью томика, каждый из которых с запасом вмешал в себе по два первоначальных изданий (на пергаментной бумаге), от чего пользоваться им было просто невозможно, поэтому „высоколобый“ снобизм (и требование иметь словарь на столе) тут неуместен.

Однако и в новой разметке остались свои недостатки. Утеряна, например, пагинация, из-за чего, ссылаясь на словарь, все равно надо лезть в бумажное издание хотя бы за номером страницы, если (что, впрочем, уже оговорено) в самой статье не осталось незамеченных опечаток.

Или, например, характерный случай со словом ॠकार за которым следует ह्वेय (находясь на самом внизу индекса), в то время как ॠ всего лишь 8-ая буква алфавита, а ह - 33-ая, то есть все наоборот. Господин Б. Гейтс весьма слабо владеет санскритом, а платформа Windows изначально был рассчитаны на работу с до безобразия простецким английским языком[14]. По этой прискорбной причине слова как स्व्इष्टकृत sv-íshṭa-kṛita отображаются (при отсутствии особенных, нигде в документации не оговоренных настроек) неправильно не только в оболочке „Lingvo“.

Вот начальный фрагмент вокабулы „ādi“ из файла „monier.dsl“ (редакция А. Кайдалова), подготовленный в 2003 г., а на screenshot’e – та же карточка, но уже внутри программной оболочки:

आदि

[lang id=16]ādi[/lang]

[m1] [!trs][c orange]1) [/c][/!trs] [p]m.[/p] beginning, commencement;

a firstling, first-fruits;

[p]ifc.[/p] beginning with, et caetera, [i]andﾠ[/i] so on ([p]e.g..[/p] [c darkblue][lang id=16]indrâ̱dayaḥsurāḥ[/lang][/c], the gods beginning with Indra [p]i.e.[/p] Indra [p]etc.[/p];

[c darkblue][lang id=16]gṛihâ̱diyukta[/lang][/c], possessed of houses [p]etc.[/p];

[c darkblue][lang id=16]evamādīnivastūni[/lang][/c], such things [i]andﾠ[/i] others of the same kind:

[c darkblue][lang id=16]ṡayyākhaṭvâ̱dih[/lang][/c] [*][!trs]Comm. on Pāṇ. 3-3, 99[/!trs][/*],

Ṡayyā means a bed [p]etc.[/p];

often with [c darkblue][lang id=16]-ka[/lang][/c] at the end [p]e.g..[/p] [c darkblue][lang id=16]dānadharmâ̱dikam[/lang][/c] <[*][!trs]Hit.[/!trs][/*]>, liberality, justice, [p]etc.[/p]);

[c darkblue][lang id=16]ādau[/lang][/c] [p]ind.[/p] in the beginning, at first

[/m]â̱di

[m1] [!trs][c orange]2) [/c][/!trs] [p]mfn.[/p] beginning with [c darkblue][lang id=16]ā[/lang][/c] [*][!trs]RāmatUp.[/!trs][/*];

@आदिकर

[lang id=16]ādi-kara[/lang]

[m1] [p]m.[/p] the first maker, the creator;

[p]N.[/p] of Brahman [*][!trs]L.[/!trs][/*][/m]

@आदिकर्णी

[lang id=16]ādi-karṇī[/lang]

[m1] [p]f.[/p] a species of plant [*][!trs]L.[/!trs][/*][/m]

http://www.abbyy.com/DLCenter/

downloadcentermanager.aspx?file=/LingvoDict/Monier1.zip

Не надо быть особо прозорливым, чтобы увидеть преимущества процитированной разметки перед другой (сохранены особенности оформления, кроме шрифта), которая вышла в свет год спустя (и, не подозревая о наличии другой) конвертации в формат Lingvo „Словаря санскрита“ Анатолием Кайдаловым. Ее автор, буддолог Ричард Махони (R.B. Mahoney), всерьез предлагает следующую обработку кёльнского исходника в формате xHTML (это, заметим, не сам код, а уже окончательный вариант):

===> [ Adi ]1[ Adi ]1 m. beginning , commencement

---> a firstling , first-fruits

---> ifc. beginning with , et caetera , and so on ( e. g. [ indr^adayaH surAH ] , the gods beginning with Indra , i. e. Indra &c.

---> [ gRh^adiyukta ] , possessed of houses &c.

---> [ evamAdIni vastUni ] , such things and others of the same kind: [ zayyA khaTv^adih ] [ Comm. on cf. Pāṇ. 3-3 , 99 ] , Śayyā means a bed &c.

---> often with [ -ka ] at the end , e. g. [ dAnadharm^adikam ] [ cf. Hit. ] , liberality , justice , &c. )

---> [ Adau ] ind. in the beginning , at first

К этой „скатерти“, которая не имеет ни единой гиперссылки или закладки (и, по моим расчетам, в распечатанном виде заняла бы ca. 4000 страниц, то есть ровно в четыре раза больше, чем сама книга Монье-Вильямса со всем кожаным переплетом, по которой ведется оцифровка) прилагается „пучок“ кодировок и их Unicode’вских соответствий (например, „retroflex d“ ḍ 1e0d, „anusvara (overdot)“ ṁ 1e41), которую пользователь, подразумевается, должен держать в голове, когда он будит вводить эти комбинации в строке поиска, чтобы, спустя несколько недель, найти искомое слово или вставлять церебральные звуки с помощью нажимания магической комбинации Ctrl+C, Ctrl+V на клавиатуре (это, разумеется, работает, но сама процедура весьма утомительна). Тех, кто хочет посмотреть список аббревиатур и список авторов, конвертатор словаря отсылает к двум графическим, нераспознанным файлам (один из которых, по старой доброй традиции индологии в интернете, не загружается), также напрочь отсутствует введение, хотя в нем объяснены не столь уж очевидные принципы составления однотомника. В том же 2005 году другой профессор, на сей раз из г. Вашингтона, выпустил Unicode версию словаря, основываясь на переработке г-на Махони, которая является шагом назад даже в сравнении с первым американским выпуском г-на Махони, теряя всякую маркировку.

В заключение хотелось бы подвести некоторый итог. Ценность каждого словаря определяется способом решения в нем основной задачи – раскрыть форму и содержание слова. [Козырев 2004: 50] Этому словарю удалось и то, и другое и мы не имеем право его обеднять, извиняясь несовершенством современных нам инструментов. Или, может, следует возвратится к ручному набору?

До конца жизни Сэр Монье-Вильямс (1819–1899) работал над своим „Санскрито-английским словарем“, совершенствуя его структуру и ровно дне недели после чтения окончательной корректуры, не дождавшись сигнального экземпляра и только выполнив эту последнюю обязанность, скончался. Ему удалось осуществить свою задумку, нам – пока что нет. Если решить (легкую на первый взгляд) проблему с алфавитом и шрифтом внутри оболочки, остальную корректуру мы (lirika.lv/nagari, devanagari.ru) готовы взять на себя. Словарь, считаем мы, остается ручной работой, какими бы электронными нитями он не был скроен, ибо никакая технология не заменит человеческие способности к анализу и синтезу.

Использованная литература

[1] Всего 800 000 носителей индоарийских языков, то есть ⅛ всего мира, ½ из которых пользовалась бы данным письмом, если бы ¾ местного населения не была при этом безграмотным

[2] Которым в Европе уже 200 лет как печатается продукция на санскрите

[3] A Sanskrit-English Dictionary: Etymologically and Philologically Arranged with Special Ref-erence to Cognate Indo-European Languages / by Monier Monier-Williams. Reprint. Delhi, Motilal Banarsidass Pub., 2002, xxxvi, 1333 p.

[4] Второе издание Большого петербургского словаря [далее — PW]. Подзаголовок этого словаря (in kürzerer Fassung) не должен вводить в заблуждение. Во втором издании значительно больше слов, чем в первом, но в целях сокращения объема опущен филологический комментарий. [Серебряный 1975:111]

[5] Practical Sanskrit - English Dictionary. Containing appendices on Sanskrit prosody and important literary and geographical names of Ancient India

[6] Wujastyk, D. 1988: Report on the Sanskrit Text Archive Conference. Austin, Texas, October 28-29.

[7] „Какой смысл от памятников литературы на древних языках с опечатками, если тем, кому они нужны, они нужны в безупречном виде или вообще не нужны“ по словам А.А. Зализняка в личной беседе

[8] Schmidt, Richard 1928: Nachträge zum Sanskrit-Wörterbuch in kürzerer Fassung von Otto Böhtlingk. Leipzig.

Buddhist Hybrid Sanskrit Grammar and Dictionary / Franklin Edgerton. Reprint. New Delhi, Munshiram Manoharlal, 2004, 2 volumes, xxviii, 866 p.

[9] Practical Sanskrit Dictionary. With Transliteration, Accentuation, and Etymological Analysis Throughout by MacDonell

[10] Проф. Бешам писал: “Словарь, когда он будет, наконец, завершен, станет самой крупной работой по санскритской лексикографии какую когда-либо видел свет». Словарь выходит с 1976-го года и уже вышло 2500 страниц из 20 000 планируемых. Может поэтому столь оптимистично звучал голос В.А. Кочергиной в 1978-ом: «В настоящее время в Пуне, в Деканском колледже, ведется большая работа по составлению многотомного санскритского словаря», только как им пользоваться, непонятно уже сейчас. Исправления и дополнения, которые разбросаны в каждом новом выпуске поистине позволяют оценить преимущества электронного словаря, но в распоряжении деканских лексикографов нет даже устаревшего ЭВМ.

[11] Ghatage, Joshi, Gandhe, Ranade: An Encyclopaedic Dictionary of Sanskrit on Historical Principles. 1976-

[12] И хотя с течением времени было внесено около 4500 поправок в корпус словаря сэра Монье Монье-Вильямса, он остался непревзойденным справочником и от начального тиража в 1000 экземпляров в 1872-ом стал самым популярным и переиздавался более 30 раз в одном только Дели.

[13] Как ни странно, в первом издании словаря, к которому Анатолию Кайдалову не было доступа и про которого он просто не знал, Монье-Вильямс использовал именно первый знак, идя в разрез с принятыми системами транслитерации. Правда на последней странице словаря сам М.-В. в заметке оговорил, что диакритическая эта точка иногда отваливается и, во втором издании, он вернулся к традиционной академической транслитерации. Таким образом история одной диакритики повторилась дважды.

[14] Sanskrit and computer: Proceedings of the U.G.C. national seminar. Pratibha Prakashan: 1995. - 156 pages