Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Дескрипторная система классификации




Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.

Суть дескрипторного метода классификации заключается в следующем:

ü отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;

ü выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;

ü создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

ü между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации.

Связи могут быть трех видов:

ü синонимические указывающие некоторую совокупность ключевых слов как синонимы;

ü родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;

ü ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.

Например, в качестве объекта классификации рассмотрим успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся, преподаватель, учитель, педагог, факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.

Синонимическая связь: студент-учащийся-обучаемый.

Родо-видовая связь: университет-факультет-кафедра.

Ассоциативная связь: студент-экзамен-профессор-аудитория.

Классификаторы

Документ, содержащий описание классификационных группировок, структуру кода и наименования объектов, называются классификаторами.

Классификаторы могут иметь различную степень локализации: в пределах предприятия, отрасли, государства.

Например, общегосударственный классификатор промышленной и сельскохозяйственной продукции. (ОКП).

Системы кодирования

Система кодирования - совокупность правил кодового обозначения объектов.

Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:

ü длиной - число позиций в коде (может быть постоянная и переменная);

ü структурой - порядок расположения в коде символов, используемых для обозначения классификационного признака.

Можно выделить две группы методов, используемых в системе кодирования объектов которые образуют:

ü классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;

ü регистрационную систему кодирования, не требующую предварительной классификации объектов

Различают последовательное и параллельное классификационное кодирование.

Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры.

Например, проведем кодирование информации на основе иерархической системы классификации ИО «Факультет». Количество кодовых группировок будет определяться глубиной классификации и равно 4, Прежде чем начать кодирование, необходимо определиться с алфавитом, т.е. какие будут использоваться символы. Для большей наглядности выберем десятичную систему счисления - 10 арабских цифр. Анализ схемы на показывает, что длина кода определяется 4 десятичными разрядами, а кодирование группировки на каждом уровне можно делать путем последовательной нумерации слева направо. В общем виде код можно записать как ХХХХ, где Х - значение десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда:

1-й (старший) разряд выделен для классификационного признака «название факультета» и имеет следующие значения: 1 - коммерческий; 2 - информационные системы; 3 - для следующего названия факультета и т.д.;

2-й разряд выделен для классификационного признака «возраст» и имеет следующие значения: 1 - до 20 лет; 2 - от 20 до 30 лет; 3 - свыше 30 лет;

3-й разряд выделен для классификационного признака «пол» и имеет следующие значения: 1 - мужчины; 2 - женщины;

4-й разряд выделен для классификационного признака «наличие детей у женщин» и имеет следующие значения; 1 - есть дети; 2 - нет детей, 0 - для мужчин, так как подобной информации не требуется.

Принятая система кодирования позволяет легко расшифровать любой код группировки, например:

1310 - студенты коммерческого факультета, свыше 30 лет мужчины;

2221 - студенты факультета информационных систем, от 20 до 30 лет, женщины имеющие детей.

Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.

Например, проведем кодирование информации, классифицированной с помощью фасетной системы классификации ИО «Факультет». Количество кодовых группировок определяется количеством фасетов и равно 4. Выберем десятичную систему счисления в качестве алфавита кодировки, что позволит для значений фасетов выделить один разряд и иметь длину кода, равную 4. В отличие от последовательного кодирования для иерархической системы классификации в данном метоле не имеет значения порядок кодировки фасетов. В общем виде код можно записать как ХХХХ, где Х - значение десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда:

1-й (старший) разряд выделен для фасета «пол» и имеет следующие значения: 1 - мужчины; 2 - женщины;

2-й разряд выделен для фасета «наличие детей у женщин» и имеет следующие значения: 1 - есть дети; 2 - нет детей; 0 - для мужчин, так как подобной информации не требуется;

3-й разряд выделен для фасета «возраст» и имеет следующие значения: 1 - до 20 лет; 2 - от 20 до 30 лет; 3 - свыше 30 лет;

4-й разряд выделен для фасета «название факультета» и имеет следующие значения 1 - радиотехнический, 2 - машиностроительный, 3 - коммерческий; 4 - информационные системы; 5 - математический и т.д.

Принятая система кодирования позволяет легко расшифровать любой кол группировки, например:

2135 - женщины в возрасте свыше 30 лет, имеющие детей и являющиеся студентами математического факультета;

1021 - мужчины возраста от 20 до 30 лет, являющиеся студентами радиотехнического факультета.

Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую систему.

Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе.

Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико.

Например, все студенты одного факультета разбиваются на учебные группы (в данной терминологии - серии), для которых используется порядковая нумерация. Внутри каждой группы производится упорядочение фамилий студентов по алфавиту и каждому студенту присваивается номер.










Последнее изменение этой страницы: 2018-04-12; просмотров: 464.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...