Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Интеллектуальный анализ данных. Управление знаниями.




Информационная составляющая играет важную роль в эффективном управлении бизнесом,поэтому способность предприятий обеспечить своих сотрудников всем необходимым для принятия взвешенных решений имеет огромное значение. С серед.90-х гг.стремительно растет интерес компаний к программным продуктам,которые позволяют аналитикам работать с большими объемами данных,накопленными в ERP-,CRM-системах и хранилищах данных, и извлекать из них полезную информацию.Следствием этого стало рождение новых информфционных технологий и инструментов,обеспечивающих безопасный доступ к источникам корпоративных данных и обладающих развитыми возможностями консолидации,анализа, представления данных и распространения готовых документов внутри организации и за ее пределами: витрин данных,обработки произвольных запросов,выпуска отчетов,инстументов OLAP,интеллектуального анализа данных, поиска знаний в БД и т.д. Интеллектуальный анализ данных (ИАД)- общий термин для обозначения анализа данных с активным использованием математических методов и алгоритмов,использующих визуальное представление данных. В общем случае процесс ИАД состоит из 3 стадий:

1) выявление закономерностей, трендов и колебаний (свободный поиск)

2) прогностическое моделирование (использование выявленных закономерностей для предсказания неизвестных значений и прогнозирования развития процессов)

3) анализ исключений для выявления и толкования аномалий в найденных закономерностях.

Иногда выделяют промежуточную стадию проверки достоверности найденных закономерностей между их нахождением и использованием.

Все методы ИАД по принципу работы с исходными данными подразделяются на две группы:

1)методы рассуждений на основе анализа прецедентов (метод ближайшего соседа, к-ближайшего соседа,метод NGE)-исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогнозирования или анализа. Недостатком этой группы является сложность их использования на больших объемах данных.

2) методы выявления и использования формализованных закономерностей,требующие извлечения информации из первичных данных и преобразования ее в некоторые формальные конструкции,вид которых зависит от конкретного метода (метод кросс-табуляции, метод логической индукции (деревья решений и индукция правил), методы вывода уравнений (ряды динамики,корреляционно-регрессионный анализ,нелинейная регрессия, нейронные сети)).

В основу ИАД положены следующие подходы:

Технология Достоинства Недостатки
Правила вывода Удобны,когда данные связаны отношениями,представимыми в виде правил «если-то» При большом количестве правил теряется наглядность; не всегда удается выделить отношения «если-то»
Нейронные сети Удобны при работе с нелинейными зависимостями, зашумленными и неполными данными «черный ящик»:модель не может объяснить выявленные знания;данные обязательно должны быть преобразованы к числовому виду
Нечеткая логика Ранжируют данные по степени близости к желаемым результатам;нечеткий поиск в базах данных Технология новая,поэтому разработано ограниченное число приложений
Визуализация Многомерное графическое представление данных,по которому пользователь сам выявляет закономерности Модели не исполняются,и их интерпретация полностью зависит от аналитика
Статистика Существует множество алгоритмов и опыт их применения в научных и инженерных приложениях Ориентированы, в основном, на проверку гипотез, а не на выявление новых закономерностей в данных
К-ближайший сосед Выявление кластеров,обработка целочисленных источников данных Большие затраты памяти,проблемы с чувствительностью
Интегрированные технологии Возможность выбора подходов,адекватных задачам,или сравнения результатов применения разных подходов Сложность средств поддержки;высокая стоимость; для каждой технологии не всегда реализуется наилучшее решение

Существующие системы ИАД подразделяют на исследовательские,ориентированные на специалистов и предназначенв для работы с новыми типами проблем;прикладные,рассчитанные на аналитиков,менеджеров,технологов и решающие типовые задачи.Если в исследовательских системах важно разнообразие доступных методов обработки данных и гибкость используемых средств,то в прикладных системах целесообразно реализовывать не методы, а типовые виды рассуждений, характерные для проблемной области. Для проведения автоматического анализа данных используются технологии под общим названием Data Mining- технология обнаружения в «сырых»данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретаций знаний,необходимых для принятия решений в различных сферах человеческой деятельности. Решаемые задачи:

-классификация-отнесение объектов к одному из заранее известных классов

-кластеризация-группировка объектов на основе данных,описывающих сущность этих объектов.(чем больше похожи объекты внутри кластера и чем больше отличий между кластерами,чем точнее кластеризация)

-ассоциация-выявление закономерностей между связанными событиями

-последовательные шаблоны-установление закономерностей между связанными во времени событиями

-анализ отклонений-выявление наиболее нехарактерных шаблонов.

Наибольшее распространение получили следующие методы Data Mining: нейронные сети,деревья решений,алгоритмы кластеризации, алгоритмы обнаружения ассоциативных связей между событиями.

Программное обеспечение для реализации технологий Data Mining: Poly Analyst, Scenario, 4Thought, MineSet.

Поиск данных в базах данных определяет последовательность действий,необходимую для получения знаний,а не набор методов обработки, и включает след.этапы:

1)подготовка исходного набора данных-создание набора данных из различных источников,для чего должен обеспечиваться доступ к источникам данных.

2)предобработка данных-удаление пропусков,искажений,аномальных значений.

3)трансформация,нормализация данных-приведение информации к пригодному для последующего анализа виду.

4) Data Mining-применение различных алгоритмов нахождения знаний.

5) постобработка данных-интерпретация результатов и применение полученных знаний в бизнес-приложениях.

В основе концепции OLAP лежит принцип многомерного представления данных. Э.Кодд определил 12 правил, которым должен удовлетворять продукт класса OLAP(многомерное концептуальное представление данных; прозрачность; доступность; устойчивая производительность; клиент-серверная архитектура; равноправие измерений; динамическая обработка разреженных матриц; поддержка многопользовательского режима; неограниченная поддержка кроссмерных операций; интуитивное манипулирование данными; гибкий механизм генерации отчетов; неограниченное количество измерений и уровней агрегации). Все продукты OLAP делятся на классы: MOLAP-системы оперативной аналитической обработки многомерных данных (включают серверный компонент, собственный интегрированный клиентский интерфейс либо используют для связи с пользователем внешние программы работы с электронными таблицами); ROLAP-системы оперативной аналитической обработки реляционных данных (представляют данные в многомерной форме, приспособлены для работы с крупными хранилищами, предусматривают многопользовательский режим работы); HOLAP-гибридные системы ( объединяют гибкость и скорость ответа MOLAP с постоянным доступом к реальным данным ROLAP); инструменты генерации запросов и отчетов для настольных ПК (осуществляют выборку данных из исходных источников,преобразуют их и помещают в динамическую многомерную БД). Достоинства использования многомерных БД в системах аналитической обработки: поиск и выборка данных осуществляется быстрее,так как БД денормализована,содержит заранее агрегированные показатели и обеспечивает оптимизированный доступ к запрашиваемым ячейкам; простота включения разнообразных встроенных функций. Недостатки: не позволяет работать с большими БД; уменьшенный объем исходных детализированных данных; неэффективно используют внешнюю память.В большинстве случаев корпоративные хранилища данных реализуются средствами реляционных СУБД, инструменты ROLAP позволяют производить анализ непосредственно над ними.

Под управлением знаниями обычно понимают систематическое приобретение,синтез,обмен и использование опыта для достижения успеха в бизнесе или в управлении компанией. Выделяют два типа знаний: явные (должностные инструкции, регламенты и положения о деятельности подразделений, корпоративные учебные пособия и т.д.) и неявные (носителем их является человек, их нельзя увидеть, сложно задокументировать, передать их можно посредством личного и непосредственного общения; могут содержаться в корпоративном хранилище данных, для их извлечения используются технологии искусственного интеллекта и статистики). Система хранения знаний должна регламентировать доступ персонала к знания, обладать понятной для использования навигацией, обеспечивать эффективный поиск необходимых знаний. Процедуры взаимодействия знаний могут быть реализованы в портале управления знаниями-корпоративный информационный портал для управления взаимодействием на уровне знаний сотрудников организации, рабочих групп и собственно орг-ии. Он обеспечивает поиск, извлечение и представление знаний и предназначен для их использования и сохранения. В зависимости от ориентации на определенную категорию пользователей существуют различные варианты порталов: кадровый,проектного офиса, управления взаимодействия с клиентами.

Система управления содержимым-программный комплекс,который позволяет управлять электронным контентом(массивы текстовых и мультимедиа документов, каталоги и тд. Функции: предоставление авторам удобных и привычных средств создания контента; хранение его в едином репозитории; автоматическое размещение контента на терминале пользователя, управление внешним видом страниц; функции для улучшения формы представления данных. Системы бизнес-интеллекта- класс информационных систем, которые позволяют преобразовать разрозненные и необработанные данные операционной деятельности предприятия в структурированную информацию и знания, используемые для принятия управленческих решений.

BI-инструменты включают корпоративные BI-наборы, предназначенные для генерации запросов и отчетов,и BI-платформы, представляющие собой набор инструментов для создания, внедрения, поддержки и сопровождения BI-приложений, которые содержат встроенные BI-инструменты(OLAP, генераторы запросов и отчетов, визуализация и тд.).Лидерами в разработке корпоративных BI-платформ являются MicroStrategy, Business Objects, Cognos, Microsoft, Oracle, SAR, SAS Institute и др.

 










Последнее изменение этой страницы: 2018-04-12; просмотров: 310.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...