МОДУЛЬНЫЙ ПРИНЦИП ОПИСАНИЯ ЭТИМОЛОГИИ В МНОГОЯЗЫЧНОМ ЭЛЕКТРОННОМ СЛОВАРЕ

 

MODULAR PRINCIPLE OF DESCRIPTION OF ETYMOLOGY IN A MULTILANGUAGE ELECTRONIC DICTIONARY

 

Силонов А. Ф. (silonov@narod.ru)

 

В докладе рассматривается модульный принцип составления этимологических разделов в электронном многоязычном многофункциональном словаре. Концепция словаря предполагает разностороннее описание самых широких слоев лексики широкого спектра языков, и предлагаемый метод обеспечивает единообразие этимологических описаний и значительную экономию компьютерных ресурсов при снижении вероятности появления ошибок.

 

Одна из заметных тенденций в современной лексикографии – стремление к интеграции функциональности словарей: разнородные сведения, традиционно оказывавшиеся разнесенными по отдельным словарям, теперь объединяются в рамках одного продукта. Все чаще появляются многоязычные переводные словари (прежде всего электронные, например, Lingvo, Logos dictionary, "Тезаурус полной луны"), а в толковых словарях разных языков появляются расширенные сведения о грамматике, орфоэпии и этимологии (Шведова 2007, Oxford English Dictionary, Merriam-Webster). Примером последовательного подхода к такой интеграции может служить русский Викисловарь – открытая онлайновая лексикографическая база знаний, создаваемая в рамках международного некоммерческого проекта Wiktionary фонда Wikimedia (фонд поддерживает и ряд других аналогичных проектов, наиболее известным из которых является Википедия).

 

1. Этимологические секции в статьях Викисловаря

 

Концепция Викисловаря предполагает разностороннее описание неограниченно широкого спектра языковых единиц различных языков (в настоящее время в русском Викисловаре в той или иной мере представлено порядка 300 языков).

 

Рис. 1. Пример фрагмента статьи из Викисловаря (статья "рука").

 

Обязательным элементом словарной статьи в данном проекте является этимологический раздел, и в идеале статья о каждом слове каждого языка должна содержать сведения о происхождении данного слова, причем сведения эти должны быть эксплицитными (отсылки к материалам других статей нежелательны). Естественно, что при таких условиях возникает большой объем дублирования информации. Прежде всего это касается слов, заимствованных разными языками из одних и тех же источников. Скажем, у русского слова телефон, белорусского тэлефон, украинского телефон, английского telephone и т. п. значительная часть этимологической информации будет совпадать. Более того, у терминов, обозначающих в разных языках понятие микрофон, этимология будет частично совпадать с этимологией слова телефон, частично – с этимологией слов микроскоп, микрон и т. д. Если в соответствии с требованием эксплицитности давать соответствующие описания в каждом случае "вручную", возникает не только значительная избыточность информации, но и большая вероятность появления ошибок и нарушения единообразия описаний.

 

Рис. 2. Фрагмента статьи "рука", содержащий этимологический раздел.

 

Проблемы такого рода в программировании решаются на основе принципа "написать один раз, чтобы использовать многократно". Информация или функциональность, которая может многократно потребоваться в однотипных условиях, сохраняется отдельно в виде таких ресурсов, как подпрограммы, функции, макросы и т. п., и при необходимости вызывается путем указания имени соответствующего ресурса. В Викисловаре (как и в Википедии) аналогичную функцию выполняют так называемые шаблоны – поименованные и особым образом хранимые фрагменты, которые могут содержать форматированный или неформатированный текст, иллюстрации, гипертекстовые ссылки, в том числе на мультимедийные файлы и т. п., а также другие шаблоны. Важным достоинством шаблонов является возможность указывать при их вызове параметры, влияющие на поведение шаблона. Внутри шаблона значения параметров проверяются, и в зависимости от результатов проверки шаблон может варьировать характер выдаваемой им информации. Кроме того, в шаблон можно включать конструкции, которые при вставке шаблона в статью автоматически причислят данную статью к той или иной категории (категории, наряду с шаблонами, являются в проектах на базе технологии вики одним из мощных и гибких инструментов для систематизации данных).

 

2. Этимологические шаблоны – строительные блоки модульного описания

 

Для оформления этимологической информации в русском Викисловаре принято использовать шаблоны этимологии. Вызов шаблона в тексте статьи выглядит следующим образом (внутреннее представление):

(1.a) От {{этимология:*bokiz|en}}

(1.b) От {{этимология:спирт|en}}

(1.c) От {{этимология:спирт|да}}

 

При этом читатель видит в статьях такие фрагменты:

 

(2.a) От прагерм. формы *bokiz «бук», от которой в числе прочего произошли: др.-англ. boc «документ; книга» и англ. book, нем. Buch «книга» и Buche «бук» и т. п. (восходит к праиндоевр. *bhagos).

(2.b) От лат. spīritus «дыхание, дух, душа», из spirare «дуть, дышать» (восходит к праиндоевр. *(s)peis- «дуть»). Англ. spirit — примерно с 1250 г.; заимств. через ст.-франц. Использованы материалы Online Etymology Dictionary Дугласа Харпера; см. Список литературы.

(2.c) Происходит от лат. spīritus «дыхание, дух, душа», из spirare «дуть, дышать» (восходит к праиндоевр. *(s)peis- «дуть»). Русск. спирт — начиная с Петра I; заимств. через англ. Использованы данные словаря М. Фасмера; см. Список литературы.

 

 

Этимологический шаблон может содержать наряду с общей частью, отвечающей за вывод основной информации о происхождении слова, также блок фрагментов, позволяющих указать специфическую информацию, в зависимости от языка, к которому относится описываемое в словарной статье слово. В частности, в двух из трех приведенных примеров показан вызов шаблона этимология:спирт, причем пример 1.b взят из статьи об английском слове spirit, а 1.c – из статьи о русском слове спирт. Вызовы различаются только параметром, указывающим на языковую принадлежность описываемого слова. Для большинства языков параметр задается в виде международного кода языка в стандарте ISO 639 (en для английского, es для испанского, fr для французского, de для немецкого и т. п.; исключение, по традиции русского Викисловаря, составляет русский язык, для которого вместо кода ru указывается "да"). Шаблон во всех случаях выводит общую информацию о происхождении от лат. spīritus, а далее добавляет специфическую информацию о времени первой фиксации и о путях заимствования, соответственно для английского и для русского слова. Если бы параметр не был указан вовсе или не распознавался бы шаблоном, то выдаваемая информация ограничилась бы общей частью.

Исходный текст шаблона этимология:спирт выглядит так:

 

(3) {{lang|la|spiritus{{!}}spīritus|[[дыхание]], [[дух]], [[душа]]}}, из {{этимология:spiro}}. {{#if:{{{1|}}}|{{#switch:{{{1}}}| да= Русск. ''спирт''{{-}}начиная с Петра I; заимств. через англ. {{Ф}}|en= Англ. ''spirit''{{-}}примерно с 1250&#160;г.; заимств. через ст.-франц. {{OED}}}}{{etym-lang|{{{1|}}}|la}}}}<noinclude>[[Категория:Шаблоны этимологии|спирт]]</noinclude>

 

Как видно, внутри этой конструкции используется несколько вспомогательных "оформительских" шаблонов (lang, Ф, OED), а также еще один этимологический шаблон, этимология:spiro, с помощью которого описывается уже происхождение латинского слова spiritus. Встречаются и более сложные случаи, когда глубина вложенности этимологических шаблонов может достигать пяти уровней. Конструкция-переключатель #switch:{{{1}}} в данном примере осуществляет анализ передаваемого шаблону параметра. Полезным представляется и вспомогательный шаблон etym-lang, позволяющий автоматически заносить словарные статьи в категории типа "Слова латинского происхождения в русском языке"

Очень эффективным оказывается использование вложенных этимологических шаблонов для слов различных языков, заимствованных в схожих формах из морфологически сложных слов древнегреческого и латинского языков (типа метафора, эпиграф, анестезия, интервент). Здесь оказывается весьма удобным применение вложенных "низкоуровневых" шаблонов, описывающих происхождение отдельных морфем. В настоящее время в Викисловаре создано несколько десятков таких шаблонов-кирпичиков, в частности для наиболее продуктивных греческих приставок (а-, ана-, апо-, эпи-, ката-, мета-, пери-, пара-, син-, эн- и т. п.), латинских приставок (a-, ad-, con-, de-, dis-, pro-, sub-, super- и т. п.) и бесприставочных глаголов (cedere, cernere, sedere, stare, valere, venire и т. п.). Скажем, шаблон, описывающий этимологию латинского глагола stare, включен в тексты шаблонов с этимологией таких слов, как станция, институт, статус, штатив, конституция, ассистент, а также их производных и аналогов в разных языках.

 

Рис. 3. Перечень категорий, объединяющих слова латинского происхождения в разных языках.

 

3. Источники этимологической информации в Викисловаре

 

Как и Википедия, Викисловарь агрегирует информацию из множества источников, включая данные других этимологических словарей, а также этимологических разделов толковых словарей. На данный момент наиболее развитыми являются этимологические разделы в статьях о словах русского, английского и французского языков. В этих разделах широко используются данные словаря М. Фасмера, Оксфордского словаря, а также онлайновых ресурсов "Вавилонская Башня" (сайт с этимологическими базами данных, основанный С. А. Старостиным), Online Etymology Dictionary (http://www.etymonline.com, составитель Дуглас Харпер) и TLF-Étym (этимологический раздел лексикографического проекта Le Trésor de la Langue Française Informatisé). При работе со словами других языков используются соответствующие этимологические ресурсы, например, Етимологічний словник української мови для украинского и т. п. Материалы этих ресурсов при их использовании в Викисловаре по возможности помечаются соответствующими шаблонами, ссылающимися на источник.

 

4. Заключение

Предлагаемый метод позволяет в единообразной форме описывать этимологию широкого множества слов различных языков с помощью отдельных информационных модулей – многократно используемых шаблонов. При этом устраняется дублирование хранимой информации, сокращается вероятность возникновения ошибок, а для исправления замеченных ошибок достаточно однократного редактирования шаблона – исправленная информация автоматически появляется во всех статьях, где этот шаблон используется.

 

 

 

Список литературы

1. Фасмер М. Этимологический словарь русского языка. - 1-е изд. - Т. 1-4. - М., 1964—1973.

2. Толковый словарь русского языка с включением сведений о происхождении слов (под ред. Н. Ю. Шведовой). - М.: Азбуковник, 2007.

3. Oxford English Dictionary. Oxford University Press 2009.

4. Етимологічний словник української мови: В 7 т. / АН УРСР. Ін-т мовознавства ім. О. О. Потебні; Редкол. О. С. Мельничук (головний ред.) та ін. — К.: Наук. думка, 1982.

 

Онлайновые ресурсы

* Викисловарь (http://ru.wiktionary.org)

* Вавилонская Башня (http://starling.rinet.ru)

* Тезаурус Полной Луны (http://poliglos.info)

* Logos dictionary (http://www.logosdictionary.org/pls/dictionary/new_dictionary.index_p)

* Merriam-Webster Online (http://www.merriam-webster.com)