Proceedings 2002

Contents

ИНФОРМАЦИОННАЯ СИСТЕМА ДЛЯ ПЕРЕВОДЧИКОВ

 

 

А. В. Поминов

ООО “АртекстСофт”

pom@aha.ru

 

 

Ключевые слова: электронный словарь, компьютерная лексикография, словарные базы, поиск и представление информации в сети Интернет

 

Поясняется опыт создания информационной системы для переводчиков в сети
Интернет (www.multitran.ru). Раскрываются основные задачи и возможности автоматического словаря, находящегося в свободном доступе. Удобства, предоставляемые сетью, включают изобилие информационных ресурсов, которые могут быть объединены в едином поисковом пространстве, общую терминологическую базу по нескольким языкам, а также возможности обмена опытом и пополнения словаря.

 

 

  1. Введение

 

Интернет предоставляет дополнительные возможности по созданию информационных пространств, которые были недоступны при использовании поисковых систем, рассчитанных на работу в локальных сетях и на отдельных компьютерах. Прежде всего это касается возможности интеграции различных ресурсов, представленных в Интернете. Помимо словарей и энциклопедий, поиск в которых организован на определенном сайте, можно обращаться к ресурсам других сайтов, используя уже существующие в сети поисковые механизмы. Некоторые энциклопедии и словари (такие как БСЭ) представлены на нескольких сайтах, причем поиск в них организован по-разному и выдает различные результаты. Кажется удобной следующая форма размещения ссылок на словарные ресурсы в Интернете: обмениваться списками ключевых слов, по которым и производится поиск вместе с поиском по собственным базам. В случае обнаружения текста запроса в списке ключевых фраз на сайте партнера, при выводе результатов поиска отображается ссылка, по которой можно посмотреть интересующую статью в развернутом виде. Удобство заключается в том, что при выполнении запроса к основной базе не выдается ссылок на другие ресурсы Интернета, если они не содержат искомого термина. Это особенно актуально при наличии большого числа внешних источников, доступных при поиске с данного сайта. Так, на сайте словаря Мультитран доступен поиск в нескольких десятках словарей и энциклопедий, что может пригодиться при переводе текстов. Еще более интересной кажется возможность организации поиска, позволяющего по отдельным словам находить все подходящие статьи на сайтах партнеров. Это потребует морфологической обработки списков ключевых слов, но придаст поиску большую гибкость. Наконец, реализация полнотекстового поиска по внешним источникам позволила бы интегрировать большое число ресурсов в единой поисковой оболочке, но при этом число результатов поиска может существенно возрасти и сделать работу с подобной системой не слишком удобной.

 

 

  1. Поиск термина

 

Принципы организации поиска в словарной системы Мультитран в Интернете сводятся к следующему. Поиск начинается с некоторого слова или словосочетания, в зависимости от результатов можно либо расширять запрос, просматривая списки словосочетаний, содержащие слова запроса, либо сокращать его, просматривая переводы отдельных слов и фраз, входящих в состав найденного термина. Поиск словосочетаний, в которых используется данное слово, а также более коротких словосочетаний и отдельных слов, входящих в состав термина, производится автоматически на основе переводного словаря объемом 2.400.000 статей. Объем базы в данном случае позволяет получить достаточно большое количество вариантов: чем крупнее словарь, тем больше значений предлагает система как в сторону расширения запроса (список словосочетаний), так и его детализации (деление найденного словосочетания на более короткие). Многие словосочетания могут быть последовательно сокращены на одно, два и три слова, каждый раз образуя другие значимые термины со своими наборами переводов. Этот результат не был предусмотрен во время проектирования системы, а явился следствием достаточно широкого покрытия словарем различных предметных областей. Списки полученных словосочетаний можно затем просматривать как в отдельности по тематикам, так и в виде единого алфавитного списка.

Большинство терминов в словаре можно найти, используя обычный морфологический поиск. В более сложных случаях применяется поисксловосочетаний, содержащих заданные слова. Система позволяет формировать нечеткие запросы, содержащие лишь некоторые значимые слова из реально хранящихся в словаре терминов. При этом автоматически производится поиск словосочетаний, которых будет найдено тем больше, чем меньше поисковых слов указано в запросе. Соответственно, пользователь может вначале искать словосочетание, содержащее большое число слов и отсутствующее в словаре, а затем сокращать количество слов в запросе вплоть до нахождения подходящих терминов, либо вхождения заданных слов в другие словосочетания. Поиск можно также начинать с одного или двух слов, а затем добавлять слова к запросу. Когда список найденных словосочетаний окажется приемлемо малым, его можно просмотреть и выбрать подходящее значение. Следует отметить, что при запросе блока текста система попытается найти в нем устойчивые словосочетания наибольшей длины, переводы которых можно в дальнейшем просматривать отдельно. Таким образом, даже при отсутствии в словаре искомого текста, система позволяет выделить в нем ключевые термины.

Ограничения модели по-прежнему включают невозможность прямого нахождения термина при перестановке и пропуске значимых слов в запросе, однако искомый термин будет в каждом из этих случаев найден за счет механизма поиска словосочетаний, содержащих заданные слова.

 

 

  1. Пополнение словаря

 

Что касается подготовки новых словарных статей, то технология и квалификация привлекаемых специалистов зависит от назначения создаваемого словаря. Если говорить о словаре общей лексики, рассчитанном на изучающих иностранный язык, то кажется целесообразным разрабатывать статьи вручную, подбирая примеры и выстраивая значения по определенной схеме. Здесь многое зависит от концепции построения словаря и труда лексикографов. Что же касается словаря для профессиональных переводчиков, то база данных подобных систем на девяносто процентов состоит из специальной терминологии (и на восемьдесят процентов из словосочетаний). Здесь более уместно говорить о подборе переводных эквивалентов по конкретной предметной области и объеме словаря в целом, который позволит работать в достаточно широком наборе предметных областей. Конечно, некоторые термины имеют устоявшийся перевод, предпочтительный по сравнению с другими, более спорными значениями. Однако, практика работы с переводчиками высокой квалификации показывает, что выбор перевода часто зависит от корпоративных стандартов. Более предпочтительно, чтобы система словарей включала в свой состав множество значений термина, из которых переводчик может выбрать в каждом конкретном случае наиболее подходящее значение. То есть для разработки профессиональных многоцелевых словарей нужны скорее не специалисты по лексикографии в целом, а профессиональные переводчики, работающие в данной предметной области.

Источниками терминов служат бумажные словари, корпоративные глоссарии и наработки отдельных переводчиков, взаимный обмен лексикой между которыми может существенно ускорить перевод текстов по общим проектам. Ситуация с бумажными словарями выглядит следующим образом. Многие издания, выходившие в 50-е и 60-е годы, действительно устарели, и не вся входящая в их состав лексика может представлять интерес. Тем не менее, большинство словарей по узким и специальным дисциплинам с тех пор не переиздавались и, соответственно, новую лексику для этих тематик можно почерпнуть только из текущих переводческих проектов. Кроме того, едва ли всю содержащуюся в старых изданиях лексику следует списывать как ненужну*ю. Можно сказать, что термин устаревает вместе с понятием, которое он обозначает. Например, множество терминов из области вычислительной техники связано с использованием перфокарт, которые вышли из употребления. Это значит, что соответствующие предметы и понятия практически не используются в современной литературе. Однако, “колода перфокарт” по-прежнему будет переводиться как “deck of punched cards”. Таким образом, не представляется большой проблемой ситуация, когда в словаре будут отражены предметы и понятия, редко используемые в современной жизни. Тем более, что перевод для них будет выдан только при запросе соответствующего термина.

Многие издания прошлых лет содержат любопытные значения, не встречающиеся в более поздних словарях. Даже юридические словари сорокалетней давности по-прежнему используются переводчиками. Идеальным решением было бы переработать существующие словари, приведя их в соответствие с современной терминологией. Однако, объем такой работы сложно оценить. Поэтому приходится идти более простым технологическим путем, который, тем не менее, дает интересные результаты. За счет использования крупных словарных баз, скомпилированных из большого числа источников, можно устранить избыточность информации, доходящей до девяносто процентов, сохраняя лишь уникальные, нигде более не встречающиеся термины. Кажется, что использование лингвистической базы данных, ориентированной на хранение словарной информации, предоставляет больше поисковых возможностей по сравнению с традиционной технологией представления терминов в электронных словарях, когда словарная статья напоминает по формату книжную.

Пополнение словаря является отдельной задачей в отношении поиска новых терминов и методики их обработки. При внедрении новых словарных статей происходит сохранение терминов, ранее отсутствовавших в базе по данной тематике и с данным комментарием. Все остальные термины считаются дублированными и пропускаются при обработке. Наличие пополняемого списка из более чем трехсот тематик позволяет не только учитывать особенности различных источников, но и сопровождать переводы контекстной информацией, которая может помочь переводчику в выборе подходящего значения.

При обработке словарной информации систему приходится обучать новым словам, встретившимся в текстах статей. Обучение проводится в полуавтоматическом режиме, который не требует ручного ввода каждого слова, но в то же время обеспечивает достаточную точность присвоения морфологических свойств. Словарь Мультитран является скорее практическим средством работы переводчика, чем объектом теоретического исследования, поэтому скорость обработки больших массивов данных является безусловным приоритетом. В результате анализа текстов более 100 специализированных словарей были созданы базы объемом по 350.000 слов для русского и английского языка. Поскольку многие из новых слов образуются с использованием приставок и суффиксов, пополнение списка слов будет продолжаться. С другой стороны, эти слова действительно встречаются в языке, а не являются результатом автоматического синтеза.

Использование обратной связи с пользователями является полезным свойством общедоступного ресурса и позволяет исправлять ошибки в словаре, а также получать переводы новых терминов, которые могут быть полезны сообществу переводчиков. Поскольку, как предполагалось выше, весьма сложно оценить правильность того или иного перевода термина, не будучи специалистом в каждой из представленных в словаре области знания, решение по выбору правильного значения остается за конечным пользователем. Весьма затруднительно делать какие-либо рекомендации относительно правильности того или иного специального термина. Кажется более полезным предоставить средства поиска и выбора значений, что вместе с возможностью просмотра толкований термина в различных словарях и энциклопедиях позволит найти подходящее значение.

Словарь Мультитран включает около 100.000 терминов, предоставленных пользователями и не встречающихся в распространенных печатных изданиях. Можно по-разному оценивать надежность и достоверность этих значений, однако основным критерием отбора был профессионализм авторов, как правило, известных переводчиков. При организации обмена терминами проблема авторства словарных статей решается в рабочем порядке, поскольку общая польза от обмена терминологией оказывается довольно существенной. Во всяком случае, наличие в словаре пользовательского перевода термина, уже использованного в практической работе, представляется более приемлемым вариантом, чем его отсутствие из-за недостаточной разработанности данной предметной области.

Внедрение в систему новых языков придает задаче словарного поиска новое измерение. Появляется возможность искать переводы терминов одновременно в нескольких словарях. В качестве результата поиска отображается полный набор переводов для текущей пары языков, а при наличии данного термина в словарях для других языков выдается контекстная ссылка.

 

  1. Заключение

 

Гибкий поиск словарной информации по целому ряду ресурсов может оказаться полезным для переводчиков. Дополнительные словарные базы, которые могут быть созданы на основе морфологических и переводных словарей, включают обратные словари, индексы для поиска слов по буквам и приставкам, типам склонения и спряжения и т.п. Практическая ценность подобных поисковых механизмов может быть невелика, но в качестве расширения словарного поиска они предоставляют некоторые дополнительные возможности. Переводной словарь может также служить источником синонимической базы, использующей значения терминов по одинаковым или сходным тематикам. Это позволит автоматически создать словарь синонимов по широкому спектру тематик объемом в несколько миллионов статей для каждого из входящих в систему языков. Поскольку ручная обработка подобных массивов данных является весьма трудоемкой, а сама задача имеет не столь высокий приоритет по сравнению с разработкой переводного словаря, наличие автоматического решения этой задачи кажется полезным.

Работа по созданию размещенной в Интернете словарной системы для переводчиков еще далека от завершения.

 

Internet-based dictionary for translators

Andrew Pominov

 

Key words: electronic dictionary, system for translators, linguistic databases, search

systems

 

The background of creating Internet-based translation system is described. The basic functions and capabilities of freely available electronic dictionary are demonstrated. The facilities offered by Internet include the availability of useful resouces that could be linked together, multilanguage term database, communication of experience and dictionary update.