Студопедия КАТЕГОРИИ: АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Дескрипторная система классификации
Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска. Суть дескрипторного метода классификации заключается в следующем: ü отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы; ü выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых; ü создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации. ü между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов: ü синонимические указывающие некоторую совокупность ключевых слов как синонимы; ü родо-видовые, отражающие включение некоторого класса объектов в более представительный класс; ü ассоциативные, соединяющие дескрипторы, обладающие общими свойствами. Например, в качестве объекта классификации рассмотрим успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся, преподаватель, учитель, педагог, факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д. Синонимическая связь: студент-учащийся-обучаемый. Родо-видовая связь: университет-факультет-кафедра. Ассоциативная связь: студент-экзамен-профессор-аудитория. Классификаторы Документ, содержащий описание классификационных группировок, структуру кода и наименования объектов, называются классификаторами. Классификаторы могут иметь различную степень локализации: в пределах предприятия, отрасли, государства. Например, общегосударственный классификатор промышленной и сельскохозяйственной продукции. (ОКП). Системы кодирования Система кодирования - совокупность правил кодового обозначения объектов. Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется: ü длиной - число позиций в коде (может быть постоянная и переменная); ü структурой - порядок расположения в коде символов, используемых для обозначения классификационного признака. Можно выделить две группы методов, используемых в системе кодирования объектов которые образуют: ü классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы; ü регистрационную систему кодирования, не требующую предварительной классификации объектов Различают последовательное и параллельное классификационное кодирование. Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Например, проведем кодирование информации на основе иерархической системы классификации ИО «Факультет». Количество кодовых группировок будет определяться глубиной классификации и равно 4, Прежде чем начать кодирование, необходимо определиться с алфавитом, т.е. какие будут использоваться символы. Для большей наглядности выберем десятичную систему счисления - 10 арабских цифр. Анализ схемы на показывает, что длина кода определяется 4 десятичными разрядами, а кодирование группировки на каждом уровне можно делать путем последовательной нумерации слева направо. В общем виде код можно записать как ХХХХ, где Х - значение десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда: 1-й (старший) разряд выделен для классификационного признака «название факультета» и имеет следующие значения: 1 - коммерческий; 2 - информационные системы; 3 - для следующего названия факультета и т.д.; 2-й разряд выделен для классификационного признака «возраст» и имеет следующие значения: 1 - до 20 лет; 2 - от 20 до 30 лет; 3 - свыше 30 лет; 3-й разряд выделен для классификационного признака «пол» и имеет следующие значения: 1 - мужчины; 2 - женщины; 4-й разряд выделен для классификационного признака «наличие детей у женщин» и имеет следующие значения; 1 - есть дети; 2 - нет детей, 0 - для мужчин, так как подобной информации не требуется. Принятая система кодирования позволяет легко расшифровать любой код группировки, например: 1310 - студенты коммерческого факультета, свыше 30 лет мужчины; 2221 - студенты факультета информационных систем, от 20 до 30 лет, женщины имеющие детей. Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации. Например, проведем кодирование информации, классифицированной с помощью фасетной системы классификации ИО «Факультет». Количество кодовых группировок определяется количеством фасетов и равно 4. Выберем десятичную систему счисления в качестве алфавита кодировки, что позволит для значений фасетов выделить один разряд и иметь длину кода, равную 4. В отличие от последовательного кодирования для иерархической системы классификации в данном метоле не имеет значения порядок кодировки фасетов. В общем виде код можно записать как ХХХХ, где Х - значение десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда: 1-й (старший) разряд выделен для фасета «пол» и имеет следующие значения: 1 - мужчины; 2 - женщины; 2-й разряд выделен для фасета «наличие детей у женщин» и имеет следующие значения: 1 - есть дети; 2 - нет детей; 0 - для мужчин, так как подобной информации не требуется; 3-й разряд выделен для фасета «возраст» и имеет следующие значения: 1 - до 20 лет; 2 - от 20 до 30 лет; 3 - свыше 30 лет; 4-й разряд выделен для фасета «название факультета» и имеет следующие значения 1 - радиотехнический, 2 - машиностроительный, 3 - коммерческий; 4 - информационные системы; 5 - математический и т.д. Принятая система кодирования позволяет легко расшифровать любой кол группировки, например: 2135 - женщины в возрасте свыше 30 лет, имеющие детей и являющиеся студентами математического факультета; 1021 - мужчины возраста от 20 до 30 лет, являющиеся студентами радиотехнического факультета. Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую систему. Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе. Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико. Например, все студенты одного факультета разбиваются на учебные группы (в данной терминологии - серии), для которых используется порядковая нумерация. Внутри каждой группы производится упорядочение фамилий студентов по алфавиту и каждому студенту присваивается номер. |
||
Последнее изменение этой страницы: 2018-04-12; просмотров: 517. stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда... |