Г.Г. Бабалова
г. Омск
Модернизация лексикографических работ путем использования ЭВМ как фактор развития международного образования
Огромный поток
информационного обмена между высокоразвитыми
странами, лавина научно-технической
документации, поступающая от производителей
товаров и современных технологий, требуют
совершенно нового подхода к лексикографической
практике. В настоящее время возрастает
необходимость максимально автоматизировать
процесс поиска информации. Компьютерные
коммуникации становятся эффективным средством
получения знаний. Умение работать с информацией,
выбирать адекватные формы ее применения,
проверять ее достоверность, представляет собой
большую ценность для специалистов всех областей
знания.
Интеллектуальные системы обработки
информации с использованием ЭВМ имеют в качестве
двух составляющих лингвистическое и
математическое обеспечение. Одна из сторон
лингвистического обеспечения - это создание
машинных словарей, т. е. словарей на машинных
носителях.
Машинные словари необходимы для
обнаружения и исправления ошибок при вводе
информации в ЭВМ, для поиска информации, для
составления рефератов текстов. Составление
машинных словарей невозможно без обработки
"обычных" словарей; например, на базе
грамматического словаря создается машинный
словарь основ, где дается информация о типе
словоизменения и словообразования. Существуют
особые машинные процедуры, позволяющие
осуществлять автоматическую обработку текста, а
также словари для многих тематических областей:
транспорт, экология и др. Кроме машинных словарей
имеется ряд других, ориентированных на ЭВМ:
классификаторы - это
терминологические словари, в которых
систематизированы наименования объектов
классификации, классификационных группировок и
их кодовых обозначений. Современные
классификаторы описывают созданные и
используемые в народном хозяйстве объекты и
применяются в традиционных и человеко-машинных
системах. "Классификатор представляет собой
словарь терминов с явно выраженными
иерархическими отношениями и кодами,
применяемыми для возможного представления
термина в ЭВМ";
рубрикаторы используются для
выявления тематических интересов потребителей
информации, для описания тематики издания, для
формирования фондов информационных систем.
Известны рубрикаторы изданий, перечни тем,
типовых рубрик, стандартных запросов абонентов
информационных систем. Рубрикаторы получают все
большее распространение в практике
научно-информационной деятельности;
терминологические стандарты
содержат термины, их варианты, а также
определения соответствующих понятий и
иноязычные эквиваленты;
сборники рекомендуемых терминов
основываются на классификационной схеме понятий
определенной области знания. Термины в данных
сборниках должны быть логически точными и
лингвистически правильными;
информационно-поисковые тезаурусы
(или машинные тезаурусы диалогового процессора).
Данные словари заслуживают особого внимания.
В настоящее время используются три
основных режима функционирования
автоматизированных банков и информации (АБИ):
1) пакетный, 2) телеобработки удаленного доступа, 3)
диалоговый. Наиболее популярен из них -
диалоговый. Модель диалогового общения
"человек - ЭВМ" представляет собой
совокупность компонентов: 1) модель пользователя
как участника общения; 2) модель языка общения
(или модель запросов пользователя); 3) модель
предметной области АБИ. Г.Е. Крейдлин и А.Д. Шмелев
описывают работу машинного тезауруса
диалогового процессора, подчеркивая тот факт,
что "тезаурусы позволяют сравнительно
простыми средствами учесть многозначность
основных лексических единиц языка - слов и
устойчивых словосочетаний, а синонимия
разрешается либо путем формирования классов
условной эквивалентности и присвоения ЭВМ
одинаковых кодов всем ключевым словам одного
класса, либо с помощью указателя иерархических
отношений. При учете парадигматических
отношений между понятиями, включаемыми в
словари-тезаурусы, коды видовых и родовых
понятий записываются совместно с кодом
рассматриваемого понятия".
Материалом для построения словарей
служит лексика предметной области, которая
состоит из трех частей: 1) слова, используемые для
описания базы знаний, 2) слова для описания
запросов пользователя к диалоговому процессору,
3) формализованные слова. Машинный словарь
представляет собой совокупность трех
специализированных словарей, которые имеют
следующие названия: словарь командных слов
(СКС), тезаурус информативных слов (ТИС),
словарь описания ситуации (СОС).
СКС предназначен для морфологического
анализа запроса; каждому слову СКС поставлен в
соответствие признак вида работы в виде
условного числа. Слова вводятся в усеченном виде
- отсекается две, три или четыре буквы в целях
экономии памяти ЭВМ. Структуру словарной статьи
СКС можно формально описать следующим образом:
<СС СКС>::=<слово><УЧ,
<слово>::=<командное слово>/<служебное
слово>, где УЧ - условное число. Синонимам СКС
присваиваются одинаковые УЧ. Омонимия в этом
случае устраняется автоматически, так как
командное слово используется только в том из
всевозможных его значений, которое наиболее
характерно для проблемной среды и которая будет
отображаться соответствующим условным числом.
ТИС используется для морфологического
анализа информативной части запроса, синтеза
сообщений пользователю и формирования
окончательного ответа. В ТИС включаются термины
и понятия проблемной области. ТИС состоит из трех
взаимосвязанных словарей и указателей
иерархических значений. Наличие нескольких
словарей обусловлено особенностями
информативной части запроса, состоящего из
некоторого множества терминов, часть которых
представлена словосочетаниями. Словарная статья
ТИС имеет следующую базисную структуру: <CC
ТИС>::=<основа><окончания><КП>, где
основа - основа словарной статьи ЛЕ; окончания -
флексии слова по числу, роду, падежу, КЛ - код
лексемы.
Состовители тезауруса несколько
отклоняются от правил современного русского
языка, понимая под основой словарной статьи
полное слово без одной или двух последних букв.
Код лексемы (КЛ) в словарной статье ТИС является
семантико-синтаксическим показателем СС и
предназначен для установления уникального кода
слова с одновременным обозначением
существования иерархических связей с другими
лексическими единицами языка запросов и
вхождения данной ЛЕ в устойчивое словосочетание.
Кроме того, при анализе слов запросов на основе
КЛ формируется семантико-синтаксический код
термина (ССК). Назначение КЛ следует из его
структуры: <КЛ>::=<П><РОД><ВИД><ВЕС>,
где П - признак вхождения словосочетания, РОД -
признак родовых связей, ВИД - признак видового
развития, ВЕС - уникальный код СС, которым может
быть любое целое число из натурального ряда,
причем словарные статьи синонимичных ЛЕ будут
иметь одинаковые ВЕСа.
СОС предназначен для создания единого
описания атрибутов данных как БД, так и в
прикладных программах. С целью сжатия объектов
вводимой информации вместо полного названия
каждого атрибута используются общепринятые
символьные обозначения: L - расстояние, d - диаметр
окружности и т. д.
Организацией тезауруса должно
обеспечиваться : 1) эффективный доступ ко всем
словам и их кодам и наоборот, 2)
взаимно-однозначное соответствие между словами
и их кодами для объяснения адекватного
распознавания запроса, 3) эффективная выборка как
выше-, так и нижележащих понятий при уточнении
запроса, 4) эффективное использование внешней
памяти.
Создатели подобных словарей
содействуют не только научно-техническому
прогрессу, но и модернизации образования.