Сборник 2001

ЭТАПЫ СОЗДАНИЯ СПЕЦИАЛИЗИРОВАННОГО СЛОВАРЯ

ДЛЯ СИСТЕМЫ ПРОМТ НА ЗАКАЗ

 

Светова С.Ю.

svetova@promt.spb.su

 

 

Системы автоматического перевода компании ПРОМТ используют три вида словарей: Генеральные, специализированные и пользовательские.

 

Генеральные словари существуют в единственном экземпляре для каждого направления перевода (таким образом, в настоящее время, их 15 - по числу существующих в системе языковых пар: англо-русская, русско-английская, немецко-русская, русско-немецкая, французско-русская, русско-французская, итальянско-русская, англо-немецкая, немецко-английская, англо-французская, французско-английская, французско-немецкая, немецко-французская, англо-испанская, испанско-английская).

 

Генеральные словари предназначены для хранения словарных статей:

  1. общей лексики (поэтому иногда называются общелексическими),
  2. и в том числе лексических единиц, несущих основную синтаксическую нагрузку, сложных омонимов, а также специфических сочетаний, призванными разрешить сложные для машинного анализа ситуации.

 

Таким образом, Генеральные словари являются основной словарной базой любой системы машинного перевода ПРОМТ (1), поэтому всегда подключены при переводе и, одновременно, не могут быть модифицированы пользователем (2).

 

Тем не менее, к любой словарной статье Генерального словаря (за исключением перечисленных в п.2 - по причине достаточной сложности информации) пользователь может получить доступ из своего собственного, пользовательского словаря - для целей, например, модификации перевода

(ввода в словарь переводного эквивалента со значением из определенной области).

 

Именно для хранения словарных баз, описывающих лексику определенных предметных областей, была задумана и реализована система специализированных словарей для систем машинного перевода ПРОМТ.

 

Создано уже около 80 специализированных словарей, в основном для англо-русской и русско-английской систем (около 60), а также для немецко- и французско-русских и русско-немецкой и русско-французской систем.  Названия специализированных словарей говорят сами за себя: “Программное обеспечение”, “Добыча нефти и газа”, “Косметическая промышленность”, “Политехнический”, “Музыка” и пр. Специализированные словари создавались и создаются с учетом пожеланий пользователей, а приоритет их подготовки основан на статистических данных, получаемых, например, путем анкетирования. Так, в частности, была выявлена необходимость создания Политехнического словаря, который отвечал запросам достаточно широкой группы пользователей, применяющих систему машинного перевода для получения информации из разнообразной технической литературы на иностранных языках. Сначала специалисты компании полагали, что более правильным является создание нескольких узкоспециализированных технических словарей, нежели одного общего, однако изучение опыта применения системы данной группой пользователей (“инженерами”)  показало другое.

 

Интересно, что такие словари как Интернет, Музыка, Кино, Кулинария и пр. были подготовлены одновременно с созданием специальных систем машинного перевода ПРОМТ, предназначенных для работы в Интернете, поскольку, как выяснилось, за иностранной информацией именно такого рода чаще всего отправляются во всемирную сеть русские пользователи.

 

Основную часть любого специализированного словаря составляют терминологические сочетания, а также слова и сочетания, имеющие отличное от  общего значение, и, следовательно, переводной эквивалент.

 

Система словарей, подключаемых в системе ПРОМТ для перевода того или иного документа, организована таким образом, что самым низким приоритетом всегда обладает Генеральный словарь (то есть при переводе обращение в него происходит в самом последнем порядке), более высоким приоритетом могут обладать специализированные и/или пользовательские словари. Следовательно, найденное в специализированном словаре слово или сочетание с определенным переводным эквивалентом попадет в текст перевода, “перекрыв” общее значение, если между ними существует различие.

 

Еще более высоким приоритетом, как задумано в системе и рекомендуется для получения лучшего результата перевода, могут обладать пользовательские словари - словари, создающиеся непосредственно пользователями систем ПРОМТ и предназначенные для хранения их уникальной лексики. Поскольку и Генеральные, и все специализированные словари закрыты для коррекции, именно пользовательские словари являются активным инструментом настройки системы на перевод определенных типов документов.

 

Кстати, самый распространенный способ создания специализированного словаря - разработка пользователем-специалистом в определенной области собственного словаря для системы, который в дальнейшем предлагается специалистам компании ПРОМТ, проверяющим и тестирующим его, а затем  в качестве уже специализированного словаря включают в список подобных. Так, например, были созданы Горно-технический, Химический, Металлургический словари и многие другие.

 

Достаточно часто заказ на создание того или иного специализированного словаря исходит от компании ПРОМТ, а задача пользователя-специалиста состоит в поиске и обработке информации, необходимой для решения такой задачи.

 

Кроме того, очень активно практикуется проверка и коррекция специалистами словарей, созданных разработчиками компании на основании материалов какого-либо заказчика, который разрешает распространять созданный для него словарь в качестве специализированного. В этом случае после разработки словарь отдается заказчику (как содержащий его уникальную лексику), а затем проверяется и дополняется лексикой, делающей его доступным и для других групп пользователей.

 

Что касается пользовательских словарей, то, как показывает практика, частные пользователи или пользователи-переводчики предпочитают делать их сами, остальные, в случае необходимости, заказывают разработку словарей у компании ПРОМТ.

 

Разработка словаря специалистами компании ПРОМТ “на заказ” - достаточно сложный и ответственный процесс, поскольку результатом его должно быть выявление всех возможностей системы, которые значительно изменят полученный результат машинного перевода. Ведь в словарь вводятся не просто слова и сочетания с определенным переводом, а и дополнительная грамматическая информация, выявленная на основании анализа достаточно больших объемов типовых текстов заказчика. Делается попытка максимально возможного учета всех найденных связей, а также функциональности тех или иных единиц.

 

Кроме того, словарь для системы ПРОМТ, содержащий обработанную уникальную терминологическую базу заказчика, может, как любая электронная база данных, найти не одно применение.

 

Если попробовать разложить весь процесс создания специализированного словаря для системы ПРОМТ на заказ на этапы,  получим 7 основных этапов:

1 этап - предварительное изучение материалов заказчика

2 этап - подготовка материала: приведение их в вид, необходимый для ввода в словарь

3 этап - собственно создание словаря

4 этап - первоначальная проверка готового словаря - на предмет корректности словарной информации

5 этап - первоначальный машинный перевод с подключенным словарем

6 этап - дополнительная настройка словаря - на основании анализа выявленных при машинном переводе связей, а также устранение лексических лакун

7 этап - “окончательный” машинный перевод и передача системы с настроенным словарем заказчику.

 

(В том случае, если заказчик планирует в дальнешем самостоятельно развивать созданный словарь, может быть предусмотрен и 8 этап - обучение сотрудников заказчика с указанием на особенности создания словаря применительно к данной предметной области и данной группе текстов.)

 

Рассмотрим эти 7 этапов по очереди.

 

Предположим, что получен заказ на разработку словаря, предназначенного для перевода с помощью системы ПРОМТ  с английского языка на русский инструкций к оборудованию.

 

1 этап:  Предварительное изучение материалов.

 

Целью этого этапа является получение и изучение всех возможных материалов (в идеальном варианте - двуязычных), знакомство с которыми поможет составить представление о виде и типах документов, перевод которых требуется регулярно осуществлять заказчику (а именно по причине регулярной необходимости перевода достаточно однотипной документации чаще всего и принимается решение о применении системы машинного перевода).

 

В качестве таких материалов могут быть использованы как собственно сами документы, особенно если есть уже переводившиеся на русский язык аналоги, так и разного рода вспомогательные материалы (конечно, в первую очередь, двуязычные словари, а также глоссарии, индексы, инструкции по переводу, описания и пр.). Опыт показывает, что при настройке системы практически любой текст может быть так или иначе использован. Дело разработчика словаря ПРОМТ - отобрать информацию и классифицировать ее нужным для целей создания словаря образом.

 

Так, например, путем сличения текстов, уже переводившихся на русский язык, с их оригиналами, можно получить русские эквиваленты для английской терминологии. Однако, нужно отметить, что достаточно часто, когда специалисты ПРОМТ имеют дело с подобными двуязычными текстами, выявляется проблема перевода одного и того же термина разными русскими вариантами - особенно в тех случаях, когда переводы выполняются несколькими переводчиками одновременно - без координации работ и редакторской правки, а еще чаще в тех случаях, когда переводами занимаются не внутри организации-заказчика (т.е. не в собственном переводческом отделе, содержать который по силам только достаточно крупным компаниям), а во внешних переводческих агентствах, которые не владеют или не полностью владеют данной терминологией и обрабатывают ее, что называется, “на свой страх и риск”, кто как может.

 

Поэтому в задачи специалиста входит не только выявление терминологии на двух языках, но и ее уточнение, классификация и получение по возможности однозначных толкований переводных эквивалентов (т.е. одинаково удовлетворяющих требованиям и переводчиков, и конечных получателей переведенной информации).

 

На этом же этапе работы могут быть выявлены (пока только в виде предположения) и трудности машинного перевода данной группы текстов, и составлены рекомендации для разработчика словаря, ответственного за ввод в словарь, а также выбраны уже имеющиеся специализированные словари или прочие словарные наработки, которые могут быть полезны при разработке словаря.

 

Таким образом, на этапе изучения все материалы заказчика подразделяются на 2 группы: имеющие русские аналоги (и особенно вспомогательные переводческие) - как материалы для пополнения словаря, остальные - как материалы для собственно машинного перевода или извлечения терминологии.

 

2 этап - Подготовка материала.

 

На этом этапе отобранные двуязычные материалы могут быть специально подготовлены для ускорения процедуры ввода в словарь.

 

Так, например, в состав компонентов программы создания словарей для системы ПРОМТ (например, Dictionary Editor в составе самой последней версииPROMT 2000) входит специальный модуль, позволяющий создавать словарь из текстового файла, устроенного определенным образом (слово - перевод).

 

При наличии такого файла вся процедура ввода в словарь сводится к подтверждению типа словоизменения слов/словосочетаний и их переводов, которые автоматически считываются в окна ввода. Подсчитано, что при этом способе создания словаря скорость работы разработчика словаря возрастает в 2 раза!

 

В идеальном случае подобный словарный текстовый файл (или близкий к подобному, который легко конвертировать) у заказчика существует.

 

В большинстве же случаев разработчику словаря приходится вручную упорядочивать полученную (например, при сравнении параллельных текстов) информацию, или, если время на такую работу сравнимо со временем непосредственного ввода в словарь “с листа”, начинать ввод.

 

На этапе подготовки материала, кроме того, могут выбираться справочные словари и издания, которые могут быть полезны при создании словаря .

 

Особенно хочется отметить крайнюю эффективность применения на этом этапе новой программы компании ПРОМТ - ПРОМТ Терм, предназначенной для выделения терминологии (т.н. терминологических кандидатов) на основании статистического анализа определенного объема текстов. Программа ПРОМТ Терм столь интересна и многофункциональна, что сама по себе заслуживает отдельной статьи, для целей же данного описания можно кратко сказать, что извлеченная автоматически терминология, просмотренная специалистами в удобном режиме, классифицированная и снабженная переводами (с помощью, кстати, машинного перевода и - если используются - баз систем Translation memory), позволяет сформировать базу словаря в 4 раза быстрее!

 

3 этап - Создание словаря.

 

В среднем скорость создания словаря разработчиком ПРОМТ оценивается в 4-5 тысяч словарных статей в месяц.

 

Процедура ввода в словарь основного объема лексических единиц не слишком сложна - благодаря тщательно продуманной и реализованной программе пополнения и коррекции словарей (Dictionary Editor).

 

Программа организована в виде диалога с пользователем, которому по мере ввода предлагается последовательно выбрать один из нескольких вариантов, предлагаемых программой автоматически. Анкеты отображают лексико-грамматическую информацию, необходимую для корректной работы программы-переводчика с данной лексической единицей в составе предложения. Кроме того, с помощью специальных окон ввода пользователь должен определить тип словоизменения вводимого слова или слов в составе сочетания.

 

Ввод всей информации организован таким образом, чтобы мог быть без труда освоен и осуществлен пользователем без специальных дополнительных знаний, это как бы минимум данных, с помощью которых можно добиться корректной работы программы-переводчика с вновь введенными лексическими единицами.

 

Когда же речь идет о профессиональном вводе, могут и должны быть задействованы все реализованные алгоритмы, поэтому в задачи разработчика словаря входит не просто механическое занесение слов и сочетаний в словарь, но и предусматривание, например, их особых функций в составе предложения, возможных случаев омографии (эта задача тоже зачастую решается программой автоматически, но требует дополнительной проверки) и т.п. Эти предположения проверяются на этапе машинного перевода или одновременно с вводом.

 

Поэтому 4-5 тыс. лексических единиц - это тщательнейшим образом отобранные, проанализированные и аккуратно введенные в словарь слова и сочетания, являющиеся уникальной терминологией, извлеченной из определенной группы материалов.

 

Этап 4 - Первоначальная проверка готового словаря.

 

Итак, словарь создан. Кстати, обычно специализированные словари на заказ создаются в объеме 10-20 тысяч единиц, то есть разработка собственно словаря может занять от 2 до 4 месяцев.

 

На этапе первоначальной проверки готового словаря используются последовательно несколько специальных программ:

n      программа проверки орфографии - для выявления опечаток или, например, некорректно определенного типа склонения или спряжения слова - неправильная словоформа

n      программа сравнения готового словаря с Генеральным словарем данного языкового направления - для выявления возможных пересечений или неучтенной дополнительной важной информации

n      программа проверки физического состояния словаря.

Кроме того, для словарей каждого направления существуют специальные “листы тестирования”, по которым проверяется корректность введенной информации.

 

Этап 5 - Первоначальный машинный перевод.

 

Этот этап всегда особенно интересен для разработчиков словаря, поскольку позволяет моментально увидеть результат их деятельности на разнообразных типах текстов.

 

В процессе создания словаря разработчик лишь иногда запускает программу-переводчик для получения подтверждения или опровержения своей гипотезы о функционировании той или иной единицы, а в процессе “массированного” перевода он сможет увидеть и другие, иногда совершенно неожиданные языковые явления.

 

Достаточно часто, при наличии у заказчика двуязычного словаря, выявляются расхождения между переводами из этого словаря и переводами, требующимися в “живом” тексте - с точки зрения “здравого смысла”, или просто неучтенные значения и, следовательно, переводные эквиваленты.

 

Кроме того, именно при машинном переводе больших объемов текстов зачастую выявляются имена собственные (разного рода названия) и акронимы, требующие принятия решения о виде их представления в тексте перевода, особенно в тех случаях, когда данные единицы совпадают со значимыми словами.

 

Этап 6 - Дополнительная настройка словаря.

 

Таким образом, как явствует из предыдущего описания, процедура пополнения и коррекции готового словаря “по следам машинного перевода” является крайне важной и эффективной во всей технологической цепочке.

 

Следует отметить, что благодаря удобству интерфейса программы ПРОМТ пополнение и коррекцию словаря (в том числе и в профессиональном режиме) можно производить непосредственно из текста, после чего запускать повторный перевод и сразу же видеть результат работы.

 

Этап 7 - “Окончательный” машинный перевод.

Этот этап предусматривает последнюю проверку качества машинного перевода на всем объеме предоставленных текстов - разработчики словаря должны удостовериться сами и дать гарантии заказчику в том, что все возможные лексические единицы были учтены, проанализированы и введены в словарь в виде, дающем возможность задействовать максимальное количество алгоритмов, реализованных в программе машинного перевода ПРОМТ для данного языкового направления.