Сборник 2001

Создание базы данных в среде MS Access как переходный этап к SQL на примере базы данных по языкам РФ

 

Трушков Д.Л.

 

 

 

В последнее время усилилась тенденция к представлению результатов лингвистических исследований в виде баз данных. Это вызвано несколькими факторами, одним из которых является достаточная легкость создания структуры баз при использовании стандартного офисного программного обеспечения.

Обычно, результаты многолетних исследований существуют в виде статей, являющихся файлами MS Word различных версий. В связи с этим наиболее логичным является разработка баз данных под управлением СУБД MS Access. Выбор СУБД оправдывается простотой разработки пользовательских форм и отчетов, а также возможностью легкого последующего переноса полученного продукта на платформу SQL-сервера.

Представляемая работа имела целью создание базы данных по языкам РФ, при этом необходимо было обеспечить возможность размещения ее в интернет в интерактивном режиме. Также необходимо было предусмотреть как можно более простую процедуру ввода данных. Исходные данные (наполнение базы) представляли собой файлы в формате MS Word 97. В связи с постановкой задачи и исходным форматом данных в качестве СУБД был выбран MS Access97.

Структура базы данных была предопределена исходным материалом. Макеты таблиц строились исходя из структуры описания языков, разработанной НИЦНЯО ИЯ РАН. В этой работе данные по каждому описанному языку представлены в виде фнкеты.

Последовательность полей конкретной таблицы соответствует последовательности подпунктов конкретного пункта анкеты. Формат поля определялся содержимым соответствующего подпункта следующим образом: в случае числа - числовой, в случае года - даты, в случае текста менее 255 символов - текстовый, в остальных - тип мемо. Ключевыми полями всех таблиц являются язык и территория (регион РФ).

В состав БД входят 50 таблиц, к которым построено 100 различных вариантов запросов, а на базе этих запросов создано 75 шаблонов отчетов. Поиск информации производится с помощью кнопочных пользовательских форм.

Для поиска информации от пользователя не требуется никаких специальных знаний и навыков. При старте БД пользователю сразу предлагается выбор основного критерия поиска информации: по конкретному языку или по конкретному региону.

При поиске информации о конкретном языке возможно получение следующей информации:

Краткий очерк истории функционирования языка и развития его письменности

  • Названия языка и этноса;
  • Общие сведения о языке;
  • Структурно-типологическое описание языка;
  • Разнообразные статистические данные о билингвах и монолингвах;
  • История развития литературы;
  • Статистические данные о литературе, периодической печати и средствах массовой информации;
  • Статистические данные об образовании;
  • Разнообразные статистические данные о статусе и социальных функциях языка, а также об использовании языка в органах власти;
  • Библиография.

Перечислены основные виды информации о языке. На самом деле, пользовательская форма позволяет получить 46 различных отчетов о конкретном языке.

 

При поиске информации о конкретном регионе РФ возможно получение следующих данных:

  • Владение родными языками (количество носителей по региону и этническим группам);
  • Разнообразные статистические данные о статусе языков и некоторых сферах их применения в регионе.

Всего пользовательская форма позволяет получить 9 различных отчетов.

 

Попутно с работой по созданию структуры базы был разработан алгоритм автоматизированного переноса данных из исходных файлов в БД. Исходные файлы являлись слабоструктурированным текстом, непригодным к непосредственному переносу в таблицы БД. Алгоритм переноса состоит в следующем.

Текст каждого файла в формате MS Word форматируется определенным образом, после чего обрабатывается специально написанным программным модулем (MS VBA). В результате такой обработки текст преобразовывается в набор таблиц, соответствующих формату таблиц БД. Файл сохраняется в форматеHTML и импортируется в MS Access-97 его стандартными средствами с помощью макроса. Эта процедура переноса данных требует от пользователя только внимательного форматирования исходного текст в соответствии с шаблоном. При этом затраты труда на ввод данных минимизируюися.

В связи с большим объемом информации и необходимостью размещения данных в интернет было принято решение о переносе базы данных на платформу MS SQL сервер. Т.к. возможность переноса базы под SQL была предусмотрена при постановке задачи, то имена таблицам и запросам были даны латиницей. После чего была произведена стандартная процедура экспорта, предусмотренная в MS Access. После экспорта была проведена стандартная процедура отладки видов.

Для преобразования в динамическую базу HTML был использован свободнораспространяемый пакет DBHTML версии 14.

 

Несмотря на то, что MS Access обычно не рассматривается в качестве серьезной СУБД, однако, в некоторых случаях, использование этого программного продукта целесообразно. Особенно это относится к случаям несложных баз данных, наполнение которых должно производиться из файлов других форматов пакетов MS Office различных версий.

Особенно оправдана разработка БД по управлением MS Access в тех случаях, когда необходима публикация данных в интернет в виде динамических страниц. Необходимая для  этого конвертация в формат SQL выполняется стандартными средствами СУБД.