2.2. КЛАССИФИКАЦИЯ И КОДИРОВАНИЕ ИНФОРМАЦИИСИСТЕМА КЛАССИФИКАЦИИОбщие сведенияВажным понятием при работе с информацией является классификация объектов. Классификация - cистема распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов - то процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами. Пример 2.6. Всю информацию об университете можно классифицировать по многочисленным информационным объектам, которые будут характеризоваться общими свойствами:
Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными, например вес, стоимость, год, либо признаками, например цвет, марка машины, фамилия. Реквизит - логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т.п. Пример 2.7. Информация о каждом студенте в отделе кадров университета систематизирована и представлена посредством одинаковых реквизитов:
Все перечисленные реквизиты характеризуют свойства информационного объекта "Студент". Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов. Пример 2.8.
При любой классификации желательно, чтобы соблюдались следующие требования:
В любой стране разработаны и применяются государственные, отраслевые, региональные классификаторы. Например, классифицированы: отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т.д. Классификатор - систематизированный свод наименований и кодов классификационных группировок. При классификации широко используются понятияклассификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное как признак классификации. Признак классификации имеет также синоним основание деления. Пример 2.9. В качестве признака классификации выбирается возраст, который состоит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет. Можно в качестве признаков классификации использовать: возраст до 20 лет, возраст от 20 до 30 лет, возраст свыше 30 лет, Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения классификационных признаков. Рассмотрим основные идеи этих методов для создания систем классификации. Иерархическая система классификацииИерархическая система классификации (рис. 2.3) строится следующим образом:
Рис. 2.3. Иерархическая система классификации Учитывая достаточно жесткую процедуру построения структуры классификации, необходимо перед началом работы определить ее цель, т.е. какими свойствами должны обладать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки классификации. Запомните! В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков. В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Дня последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии. Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации. Достоинства иерархической системы классификации:
Пример 2.10. Поставлена задача - создать иерархическую систему классификации для информационного объекта "Факультет", которая позволит классифицировать информацию обо всех студентах по следующим классификационным признакам: факультет, на котором он учится, возрастной состав студентов, пол студента, для женщин - наличие детей. Система классификации представлена на рис.2.4 и будет иметь следующие уровни:
Созданная иерархическая система классификации имеет глубину классификации, равную четырем.
Рис. 2.4. Пример иерархической системы классификации для информационного объекта "Факультет" Фасетная система классификацииФасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами(facet - рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке хотя предпочтительнее их упорядочение. Пример 2.11. Фасет цвет содержит значения: красный, белый, зеленый, черный, желтый. Фасет специальность содержит названия специальностей. Фасет образование содержит значения: среднее, среднее специальное, высшее. Схема построения фасетной системы классификации в виде таблицы отображена на рис. 2.5. Названия столбцов соответствуют выделенным классификационным признакам (фасетам), обозначенным Ф1, Ф2,..., Фi,..., Фn. Например, цвет, размер одежды, вес и т.д. Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное значение фасета. Например, фасет цвет, обозначенный Ф2, содержит значения: красный, белый, зеленый, черный, желтый. Ф1, Ф2,..., Фi,..., Фn Рис 2.5. Фасетная система классификации Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования: Ks=( Ф1, Ф2,..., Фi,..., Фn), где Фi- i-й фасет; n - количество фасетов. При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко можно модифицировать, внося изменения в конкретные значения любого фасета. Достоинства фасетной системы классификации:
Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков. Пример 2.12. Обратитесь к содержанию примера 2.10, где показано построение иерархической системы классификации. Для сопоставления разработаем фасетную систему классификации. Сгруппируем и представим в виде таблицы (рис. 2.6) все классификационные признаки по фасетам:
Структурную формулу любого класса можно представить в виде:
Присваивая конкретные значения каждому фасету, получим следующие классы:
Рис. 2.6. Пример фасетной системы классификации для информационного объекта "Факультет" Дескрипторная система классификацииДля организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска. Суть дескрипторного метода классификации заключается в следующем:
Пример 2.13. В качестве объекта классификации рассматривается успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся, преподаватель, учитель, педагог, факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д. Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:
Пример 2.14. Синонимическая связь: студент-учащийся-обучаемый.Родо-видовая связь: университет-факультет-кафедра. Ассоциативная связь: студент-экзамен-профессор-аудитория. СИСТЕМА КОДИРОВАНИЯОбщие понятия Система кодирования применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации. Система кодирования - совокупность правил кодового обозначения объектов. Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется: длиной - число позиций в коде; структурой - порядок расположения в коде символов, используемых для обозначения классификационного признака. Процедура присвоения объекту кодового обозначения называется кодированием. Можно выделить две группы методов, используемых в системе кодирования (рис.2.7), которые образуют: классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы; регистрационную систему кодирования, не требующую предварительной классификации объектов. Рассмотрим представленную на рис. 2.7 систему кодирования.
Рис. 2.7. Система кодирования, использующая разные методы Классификационное кодированиеКлассификационное кодирование применяется после проведения классификации объектов. Различают последовательное и параллельное кодирование. Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Последовательная система кодирования обладает теми же достоинствами и недостатками, что и иерархическая система классификации. Пример 2.15. Проведем кодирование информации, классифицированной с помощью иерархической схемы (см. рис. 2.4). Количество кодовых группировок будет определяться глубиной классификации и равно 4, Прежде чем начать кодирование, необходимо определиться с алфавитом, т.е. какие будут использоваться символы. Для большей наглядности выберем десятичную систему счисления -10 арабских цифр. Анализ схемы на рис. 2.4 показывает, что длина кода определяется 4 десятичными разрядами, а кодирование группировки на каждом уровне можно делать путем последовательной нумерации слева направо. В общем виде код можно записать как ХХХХ, где Х - значение десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда:
Принятая система кодирования позволяет легко расшифровать любой код группировки, например:
Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации. Пример 2.16. Проведем кодирование информации, классифицированной с помощью фасетной схемы (см. рис. 2.6). Количество кодовых группировок определяется количеством фасетов и равно 4. Выберем десятичную систему счисления в качестве алфавита кодировки, что позволит для значений фасетов выделить один разряд и иметь длину кода, равную 4. В отличие от последовательного кодирования для иерархической системы классификации в данном метоле не имеет значения порядок кодировки фасетов. В общем виде код можно записать как ХХХХ, где Х - значение десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда:
Принятая система кодирования позволяет легко расшифровать любой кол группировки, например:
Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую систему. Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе. Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико. Пример 2.17. Все студенты одного факультета разбиваются на учебные группы (в данной терминологии - серии), для которых используется порядковая нумерация. Внутри каждой группы производится упорядочение фамилий студентов по алфавиту и каждому студенту присваивается номер. КЛАССИФИКАЦИЯ ИНФОРМАЦИИ ПО РАЗНЫМ ПРИЗНАКАМЛюбая классификация всегда относительна. Один и тот же объект может быть классифицирован по разным признакам или критериям. Часто встречаются ситуации, когда в зависимости от условий внешней среды объект может быть отнесен к разным классификационным группировкам. Эти рассуждения особенно актуальны при классификации видов информации без учета ее предметной ориентации, так как она часто может быть использована в разных условиях, разными потребителями, для разных целей. На рис. 2.8 приведена одна из схем классификации циркулирующей в организации (фирме) информации. В основу классификации положено пять наиболее общих признаков: место возникновения, стадия обработки, способ отображения, стабильность, функция управления.
Рис. 2.8. Классификация информации, циркулирующей в организации Место возникновения. По этому признаку информацию можно разделить на входную, выходную, внутреннюю, внешнюю. Входная информация - это информация, поступающая в фирму или ее подразделения. Выходная информация - это информация, поступающая из фирмы в другую фирму, организацию (подразделение). Одна и та же информация может являться входной для одной фирмы, а для другой, ее вырабатывающей, выходной. По отношению к объекту управления (фирма или ее подразделение: цех, отдел, лаборатория) информация может быть определена как внутренняя, так и внешняя. Внутренняя информация возникает внутри объекта, внешняя информация - за пределами объекта. Пример 2.18. Содержание указа правительства об изменении уровня взимаемых налогов для фирмы является, с одной стороны, внешней информацией, с другой стороны - входной. Сведения фирмы в налоговую инспекцию о размере отчислений в госбюджет являются, с одной стороны, выходной информацией, с другой стороны - внешней по отношению к налоговой инспекции. Стадия обработки. По стадии обработки информация может быть первичной, вторичной, промежуточной, результатной.
Пример 2.19. В художественном цехе, где производится роспись чашек, в конце каждой смены регистрируется общее количество произведенной продукции и количество расписанных чашек каждым работником. Это первичная информация. В конце каждого месяца мастер подводит итоги первичной информации. Это будет, с одной стороны вторичная промежуточная информация, а с другой стороны - результатная. Итоговые данные поступают в бухгалтерию, где производится расчет заработной платы каждого работника в зависимости от его выработки. Полученные расчетные данные - результатная информация. Способ отображения. По способу отображения информация подразделяется на текстовую и графическую.
Стабильность.По стабильности информация может быть переменной (текущей) и постоянной (условно-постоянной).
Функция управления. По функциям управления обычно классифицируют экономическую информацию. При этом выделяют следующие группы: плановую, нормативно-справочную, учетную и оперативную (текущую). Плановая информация - информация о параметрах объекта управления на будущий период. На эту информацию идет ориентация всей деятельности фирмы. Пример 2.20. Плановой информацией фирмы могут быть такие показатели, как план выпуска продукции, планируемая прибыль от реализации, ожидаемый спрос на продукцию и т.д. Нормативно-справочная информация содержит различные нормативные и справочные данные. Ее обновление происходит достаточно редко. Пример 2.21. Нормативно-справочной информацией на предприятии являются:
Учетная информация - это информация, которая характеризует деятельность фирмы за определенный прошлый период времени. На основании этой информации могут быть проведены следующие действия: скорректирована плановая информация, сделан анализ хозяйственной деятельности фирмы, приняты решения по более эффективному управлению работами и пр. На практике в качестве учетной информации может выступать информация бухгалтерского учета, статистическая информация и информация оперативного учета. Пример 2.22. Учетной информацией являются: количество проданной продукции за определенный период времени; среднесуточная загрузка или простой станков и т.п. Оперативная (текущая) информация - это информация, используемая в оперативном управлении и характеризующая производственные процессы в текущий (данный) период времени. К оперативной информации предъявляются серьезные требования по скорости поступления и обработки, а также по степени ее достоверности. От того, насколько быстро и качественно проводится ее обработка, во многом зависит успех фирмы на рынке. Пример 2.23. Оперативной информацией являются:
|
|