Структура и содержание лексических баз данных для обучающей программы по иностранным языкам

Structure and Content of Lexical Databases for a Foreign Language Teaching Software

М.Н. Михайлов (mihail.mihailov@uta.fi)
Тамперский университет, Финляндия

Существующие обучающие программы по иностранным языкам в основном представляют собой компьютерную реализацию традиционных «бумажных» сборников упражнений. В настоящей статье показано, что хорошо структурированная словарная база данных значительно повышает потенциал такого рода учебных материалов.

Компьютер в учебном процессе

Последнее десятилетие ознаменовалось активным включением вычислительной техники в учебный процесс. Создаются обучающие про­граммы по различным дисциплинам, проводится тестирование с использованием вычислительной техники, разрабатываются пакеты программ для дистанционного обучения (см. Holmberg et al. 2005). Темпы и формы развития в этой сфере в первую очередь зависят от доступности вычислительной техники и Интернета в учебных заведениях и в быту.

Создание обучающих программ по иностран­ным языкам представляется одной из самых важных сфер компьютеризации обучения. Изу­чение языков связано с большими затратами вре­мени и усилий, при этом существует необхо­димость индивидуальной и самостоятельной рабо­ты. Внедре­ние обучающих программ в учебный процесс позволило бы несколько разгрузить препо­давателя и повысить результативность обуче­ния (Higgins 1988; Higgins, Johns 1984).

Обучающие программы по иностранным языкам: state of the art

Оценивать положение дел в этой сфере крайне трудно, поскольку существует довольно большое количество коммерческих пакетов программ, доступ к которым ограничен. Поэтому во многих случаях мне приходилось довольствоваться описаниями программных продуктов или демонстрационными версиями. Однако, представляется, что в целом существующие тенденции проследить удается.

Все обучающие программы по иностранным языкам можно разделить на три категории:

Пустые оболочки для создания рабочих глоссариев / упражнений

Программы-тесты

Обучающие игры

Оболочки для глоссариев, по-видимому, обычно создаются программистами, интересующи­мися изуче­нием иностранных языков и не являющимися профессиональными лингвистами, поэтому лингви­стическая компонента часто оставляет желать лучшего. Как правило преду­смотрен лишь ввод пар «слово – эквивалент», иногда можно добавить картинку, но ни в одной из известных мне программ нельзя давать примеры употребления, не говоря уже о толкованиях и грамматической информации (см. напр. Hot Potatoes, KVocTrain, Open Book). Наиболее интересным решением представляется включение утилиты для заучивания слов в пакет программ, обслуживающих электронные словари, как это сделано, например, в словарях Lingvo, для которых разработан лексический тренажер Lingvo Tutor (см. ABBYY Lingvo).

Программы-тесты создаются преподавателями иностранных языков в сотрудничестве с програм­мистами. Большинство таких программ пред­ставляют собой электронные реализации «бумаж­ных» упражнений по лексике и грамматике. Упражнения и тесты строятся по шаблонам типа «Вставьте слово в правильной форме» или «Выберите правильный ответ». Упражнения могут быть разбиты по темам или по уровню сложности. Недостаток у них тот же, что и у традиционных сборников упражнений: они конечны и студент лишь в редких случаях может получить коммен­тарии по своим ошибкам. Вызывает сомнение и рентабельность такого «автомата для перевора­чива­ния страниц» («page-turner», Mohan 1991: 112).

Игровые программы представляют собой компьютерные реализации языковых игр: кроссвор­дов, Scrabble, «Виселицы» и т.п. — и сюжетные игры (см., напр., Higgins 1988; Higgins, Johns 1984). Такие программы позволяют развивать некоторые языковые умения и расширяют словарный запас, но при этом мало помогают в обучении грамматике (Cheung, Harrison 1992).

Таким образом, главные недостатки сущест­вую­щих обучающих программ — «конечность» и «шаблонность» заданий. Это связано главным образом с тем, что доля лингвистики в этих продуктах незначительна. Поэтому объем данных или оказывается недостаточно большим или выходит из-под контроля. В результате на текущий момент роль обучающих программ в обучении иностранным языкам лишь вспомогательная.

SysMLL – обучающая система нового поколения

В Тамперском университете (Финляндия) силами нескольких подразделений (Институт современ­ных языков и переводоведения, Центр обуче­ния иностранным языкам, Отделение вычисли­тельной техники, Виртуальный университет) создается обучающая система по иностранным языкам SysMLL (Multilingual System for Language Learning). Цель системы — расширение, активизация и тестирование словарного запаса студентов.

Сначала будет создан русско-финский модуль, затем будет добавлен английский, позднее возможно пополнение системы и другими языками[1]. Доступ к системе будет осуществляться через веб-интерфейс.

Главное отличие этой системы от сущест­вующих состоит в том, что в основе ее не шаблон для ввода упражнений/тестов, а большой структури­рованный словарный массив, используя который система сама генерирует тесты и упражнения. Это позволяет сделать работу с тренажером «беско­нечной». Задача преподавателя сводится лишь к вводу лексики для активизации. Пользователи системы также получают возможность вести свои рабочие глоссарии, часть этого материала может позднее включаться администратором базы данных в основной словарь.

В настоящей публикации я не буду рассматривать технические вопросы, связанные с разра­боткой интерфейса и алгоритмами, а остановлюсь на лингвистических аспектах, а именно – на создании словарного массива для обучающей программы.

Традиционный словарь — за основу?

Довольно заманчивой может показаться следующая идея. Берем хороший толковый и/или двуязычный словарь, загружаем его в базу данных — и система «заряжена». Такой подход в частности применяется для заполнения готовых языковых модулей в лексическом тренажере Open Book (http://www.vinidiktov.ru/openbook.htm). Несмотря на то, что таким образом можно быстро получить большие массивы данных (хотя при этом, возможно, возникнут проблемы, связанные с авторскими правами), использование готовых словарей пред­став­ляется проблематичным. Дело в том, что словари (даже т.н. учебные словари) изначально не предназначены для их выучивания наизусть, а являются лишь справочным материалом.

Возьмем в качестве иллюстрации статью из англо-русского словаря (Lingvo Universal, http://www.lingvo.ru/lingvo/):

Firefly [транскрипция]

сущ.

светляк (летающий)

Syn:

lightning bug (1)

В статье содержится информация, достаточная для того, чтобы пользователь словаря смог бы понять, что оно значит, как оно произносится, какие у него синонимы. Однако для обучающей системы информации оказывается недостаточно. Во-первых, отсутствует другой, более употребительный эквива­лент светлячок (слово светляк встречается в литера­туре 19-го века, а также в составе научных названий, например, светляк большой). Во-вторых, нет толкова­ния, картинки, примеров употребления.

Продолжим обсуждение той же лексемы и посмотрим статью из толкового словаря. В словаре С.И. Ожегова и Н.Ю. Шведовой читаем следующее:

СВЕТЛЯК, а и СВЕТЛЯЧОК, чка, м. Жучок (а также его личинки и яйца), светящийся в темноте. (2)

Здесь имеется грамматическая информация, есть толкование, но нет примеров употребления. Кроме того, у статьи два лексических входа, то есть по-видимому предполагается, что светляк и светлячок — полные синонимы, что на мой взгляд не совсем верно (см. выше).

Большие проблемы могут возник­нуть с «отсылочными» словарными статьями типа:

ПОКУПАТЬ2 см. купить. (Ожегов, Шведова 2003) (3)

Наконец, не совсем понятно, что делать с рядами приблизительных эквивалентов. Например, Lingvo Universal предлагает для английского прилагательного weird в одном из его значений следующую цепочку: странный, жуткий, непонятный; причудливый, фантастический. Если этот ряд попадет в обучающую систему в своем изначальном виде, то пользователь должен будет основательно тренировать свою память, чтобы запомнить все эти прилагательные именно в этой последовательности.

Таким образом, база данных для эффективно работающего лексического тренажера должна довольно сильно отличаться от традиционных словарей по своему составу и организации.

Вопрос о единице хранения данных

Как известно, основной единицей хранения для традиционного словаря, как правило, является лексема. Но при создании многоязычных лекси­ческих баз данных такой подход оказывается очень неудобным. Поэтому в компьютерной лексико­графии развиваются новые способы представления лексикографических данных, позволяющие решить вопрос о семантических и сочетаемостных разли­чиях межъязыковых соответствий, а также проблему лакун (Boas 2005, Janssen 2004, Martin 2004, Fellbaum 1998).

При обучении иностранным языкам основной единицей также является не лексема, а скорее лексико-семантический вариант (ЛСВ), то есть комплекс «слово + значение». Например, выше­упомя­нутое английское слово weird  в своем разго­ворном значении ’странный, непонятный’ может быть вполне полезно уже на среднем этапе обучения для понимания фраз типа He's got some weird ideas. Однако устаревшее значение этого слова ’роковой, фатальный’ (например, шекспировские weird sisters из «Макбета») вряд ли следует изучать раньше продвинутого этапа.

Разные значения одного и того же слова могут попадать в разные тематические группы, например слово рыба в одном значении относится к группе «Фауна», в другом — к группе «На работе» (подготовить рыбу для доклада), в третьем — к группе «Игры» (положение в домино). Кроме того, разные значения одного и того же слова могут различаться по уровню сложности, например, слово рыба в первом значении несомненно входит в базовый лексикон, остальные упомянутые выше значения уже относятся к продвинутому уровню. У разных значений одной и той же лексемы могут быть разные соответствия в других языках, у некоторых из значений может вообще не оказаться точных эквивалентов (ср. рус. рыба — англ. fish, template?, block).

По этим причинам многозначные лексемы представлены в базе данных SysMLL в виде нескольких записей, причем наиболее удобным для многоязычной системы оказывается подход от значения к форме. Семантика оказывается как бы «мостиком», соединяющим разные языки (см. рис. 1). Таким образом, в системе используется нечто вроде interlingua, но задачи построения четкого метаязыка для описания семантики слова пока не ставится. При построении базы данных для лексического тренажера это оказывается вполне возможным, поскольку отсутствует необходимость организации полно­масштаб­ного поиска (как, например, в электронном словаре).

Такой способ представления данных оказы­вается гибким и экономным. Появляется возмож­ность работы с разными языковыми парами. Данные по лексике каждого из языков можно описывать отдельно, многозначность описываемых лексем также серьезных проблем не создает. Так, в примере на рис. 1 многозначное английское слово desk задействовано только в значении ’школьная парта’.

Появляется также и возможность решить проблему безэквивалентной лексики: для таких слов «мостик» к другим языкам будет отсутствовать, и работа с ними будет вестись только в одноязычном режиме (например, от толкования или графического / звукового образа).

Содержание словарной статьи

Традиционные словари всегда ограничены по объему: с очень толстым или многотомным слова­рем неудобно работать, очень длинную словарную статью трудно читать. Для электронных словарей ограничений значительно меньше, а в базе данных обучающей программы может быть заложено даже еще больше информации: ведь не все будет предъявлено пользователю, это лишь материал для порождения упражнения.

Отбор лексики

Обучающий словарь не предполагается ис­поль­зовать в качестве справочной базы данных. Поэтому требование полноты для продуктов такого рода сводится к полноте представленности лексики по отдельным темам и уровням сложности. Это дает возможность развивать систему поэтапно, добавляя в нее все новые тематические группы или пополняя и уточняя уже имеющиеся. При отборе лексики можно в целом руководствоваться теми же прин­ципами, что и при составлении словарей, например, используя данные по частотности лексики в текстах искомой категории сложности. Тем не менее, слова некоторых частей речи в обучающий словарь не попадут. Так, нет особого смысла включать в словник служебные слова: предлоги, союзы, частицы. Знакомство с числительными и место­имениями также входит в обязательный минимум, который должен быть усвоен до начала работы с программой.

Грамматика

Очень важно, чтобы студент с самого начала имел правильную информацию о грамматических признаках слова, например:

грамматический род существительного, особенно в неявных случаях (рус. дверь — ж.р., зверь — м.р.),

основные формы неправильного глагола (англ. fightfoughtfought),

нерегулярные формы (рус. братбратья),

парные лексемы, например, русские видовые пары (рус. покупатькупить, братьвзять), или обозначения лиц мужского и женского пола (рус. спортсменспортсменка)

и т.д. и т.п.

Поскольку возможность создавать отсылочные словарные статьи отсутствует, вся необходимая информация должна быть представлена в виде одной единицы хранения[2].

Рубрикация и уровни

Разучивание слов в случайном порядке малоэффективно. Новые слова должны встраиваться в уже имеющиеся ассоциативные ряды, обрастать иллюстративными примерами, зрительными образами. Поэтому для каждого слова, зафиксиро­ван­ного в базе данных, должна быть указана тема­тическая рубрика. Набор таких рубрик является открытым множеством, структура базы данных позво­ляет модифицировать рубрикацию.

Другой важный момент — уровень сложности. Применение этого параметра дает возможность использования системы пользователями, в разной степени владеющими изучаемым языком. Кроме того, появляется возможность проведения тестиро­вания словарного запаса.

Толкования, картинки и примеры

Тренировка на знание переводных эквива­лентов может быть очень полезна для начального уровня, а также при подготовке переводчиков. Однако наряду с разучиванием двуязычных соответствий важно развивать и навыки объяснения слов изучаемого языка. Интересно, что словарные дефиниции далеко не всегда оказываются пригод­ными для учебных целей, например, толкование слова жаворонок «Певчая птичка отряда воробьи­ных» (Ожегов, Шведова 2003) недостаточно ил­люстра­тивно, поэтому нередко возникает необходимость уточнения / упрощения / дополнения толкований.

Использование мультимедийных средств — изображения и звука — часто дает возможность объяснять значение слов, плохо поддающихся толко­ванию. Конечно, не все слова удается доста­точно наглядно проиллюстрировать. Так, упомя­нутый выше жаворонок визуально распознается гораздо хуже лебедя или страуса.

Слова лучше запоминаются в контексте, поэтому очень желательно снабжать слова иллюст­ра­тивными примерами употребления. Примеры должны быть короткими, понятными и хорошо запомина­ющимися[3].

Программа-помощник

Если в словаре системы содержится такая богатая и разнообразная информация о словах, созда­ние упражнений и тестов — лишь дело техники.

Легко реализуется режим предварительного ознакомления с лексикой: просмотр списков слов, переводных эквивалентов и т.д.

В режиме тренировки программа может пред­ложить пользователю указать переводной экви­валент для слова (предъявляя, кроме самого слова, картинки или пояснения, чтобы не возникло проблем с многозначностью и омонимией), подобрать слово или выражение, соответствующее данному толкованию или картинке, вставить пропущенное слово в правильной форме и т.п.

Кроме того, вполне реализуемыми оказы­ваются и различные языковые игры — кроссворды, чайнворды и т.п.: слова выбираются из базы данных, а ключами служат толкования / картинки / перевод­ные эквиваленты.

Система будет работать в многопользова­тель­ском режиме. По каждому пользователю программа будет собирать информацию о словах, вызывающих трудности. Эти слова будут предъявляться пользо­вателю чаще, чем другие, до тех пор, пока тот не перестанет ошибаться.

По результатам работы студента система будет способна генерировать отчет для преподавателя или самого студента:

количество сеансов работы, общее время работы,

результативность, процент ошибок,

прогресс / регресс,

слова / темы, вызывающие затруднения,

типичные ошибки,

рекомендации,

общая оценка работы.

Заключение

Таким образом, словарная база данных для обучающей программы по лексике оказывается лексикографическим продуктом нового типа. Исполь­зование традиционных толковых и двуязыч­ных словарей в качестве «готовых» баз данных мало что дает, поскольку они организованы для других целей и по другим принципам. Во всяком случае, при переносе данных потребуется так много изменений – и в составе словника, и в метаязыке, и в членении материала, – что в конечном итоге все равно получится совершенно новый продукт.

Создание языковых ресурсов такого типа приводит к появлению нового поколения обучаю­щих программ. Наличие хорошо структурированных словарных баз данных, содер­жащих многообразную информацию о зна­чении слов, особенностях словоизменения, употреб­ле­ния, о соответствиях в других языках, позволяет создавать обучающие программы, которые способны сами генерировать упражнения и тесты и контроли­ровать их выпол­нение. Хотя исходной точкой является создание лексических тренажеров, наличие в базах данных грамма­тической информации позволяет организо­вывать тренинг и по грамматике при наличии соот­вет­ст­вующего программного обеспечения (см. тж. Михайлов, Сидоров 1995).

Использование вычислительной техники в преподавании иностранных языков несомненно повысит эффективность и результативность обу­чения. Тем не менее, обучающие программы, как бы хороши они ни были, все равно останутся только помощниками. Учителями иностранных языков они не станут.

Литература

1.        Михайлов М.Н., Сидоров Г.О. Тренажер по русской грамматике. // Мультимедиа в препода­вании языков. Тезисы конференции. М.: МГУ, 1995.

2.        Ожегов С. И., Шведова Н. Ю. Толковый словарь русского языка. М.: Азбуковник, 2003.

3.        Boas H. C. Semantic Frames as Interlingual Representation for Multilingual Lexical Databases // International Journal of Lexicography, 18(4), 2005. – Pp. 445–479.

4.        Cheung A., Harrison C. Microcomputer Adventure Games and Second Language Acquisition: A Study of Hong Kong Tertiary Students // Pennington M. C., Stevens V. (eds.). Computers in Applied Linguistics: an International Perspective. Clevedon – PhiladelphiaAdelaide: Multilingual Matters, 1992. – Pp. 155–181.

5.        Fellbaum C. WordNet: an Electronic Lexical Database. Cambridge, Mass.: MIT Press, 1998.

6.        Higgins J. Language, Learners, and Computers. LondonNew York: Longman, 1988.

7.        Higgins J., Johns T. Computers in Language Learning. Collins ELT, Addison-Wesley, 1984.

8.        Holmberg B., Shelley M., White C. (eds.) Distance Education and Languages. Evolution and Change. Clevedon­ – BuffaloToronto: Multilingual Matters, 2005.

9.        Janssen M. Multilingual Lexical Databases, Lexical Gaps, and SIMuLLDA // International Journal of Lexicography, 17(2), 2004. – Pp. 137–155.

10.     Martin W. SIMuLLDA, the Hub-and-Spike Model and Frames or How to Make the Best of Three Worlds. // International Journal of Lexicography, 17(2), 2004. – Pp. 175–189.

11.     Meijis W. Computers and Dictionaries // Butler C.S. (ed.) Computers and Written Texts. Oxford UK & Cambridge USA: Blackwell, 1992. – Pp. 141–167.

12.     Mohan B. Models of the Role of the Computer in Second Language Development // Pennington M. C., Stevens V. (eds.). Computers in Applied Linguistics: an International Perspective. Clevedon – PhiladelphiaAdelaide: Multilingual Matters, 1992, – Pp. 110–127.

Интернет-ссылки

1.        ABBYY Lingvo: http://www.lingvo.ru/ multilingual/

2.        Hot Potatoes: http://web.uvic.ca/hrd/halfbaked/

3.        KVocTrain: http://edu.kde.org/kvoctrain/

4.        Open Book: http://www.vinidiktov.ru/openbook.htm


 



[1] Данная статья для удобства восприятия будет в основном иллюстрироваться русскими и англо-русскими примерами.

[2] Разумеется техническая реализация этой единицы хранения в базе данных достаточно сложна, и информация по одному ЛСВ оказывается разбросана по нескольким таблицам.

[3] Поэтому пока неясно, насколько реально подключение к такой системе корпуса текстов для поиска примеров употребления.