ТЕМА 6. Анализ данных. Управление данными

⇐ ПредыдущаяСтр 13 из 38Следующая ⇒

План лекции

Основы анализа данных.

Методы сбора, классификации и прогнозирования.

Обработка больших объёмов данных.

Data Mining.

Основы анализа данных.

Управление данными (англ. data management) — процесс, связанный с созданием, изменением и удалением данных, организацией их хранения и поиска.

Анализ данных — область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений. Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.

Интеллектуальный анализ данных — это особый метод анализа данных, который фокусируется на моделировании и открытии данных, а не на их описании. Бизнес-аналитика охватывает анализ данных, который полагается на агрегацию. В статистическом смысле некоторые разделяют анализ данных на описательную статистику, исследовательский анализ данных и проверку статистических гипотез. Исследовательский анализ данных занимается открытием новых характеристик данных, а проверка статистических гипотез на подтверждении или опровержении существующих гипотез. Прогнозный анализ фокусируется на применении статистических или структурных моделей для предсказания или классификации, а анализ текста применяет статистические, лингвистические и структурные методы для извлечения и классификации информации из текстовых источников принадлежащих к неструктурированным данным. Все это разновидности анализа данных.

Интеграция данных это предшественник анализа данных, а сам анализ данных тесно связан с визуализацией данных и распространением данных. Термин «Анализ данных» иногда используется как синоним к моделированию данных.

Этапы решения задачи анализа данных и их взаимосвязи

Анализ данных – это совокупность методов и средств извлечения из организованных данных информации для принятия решений.

Основные этапы решения задачи анализа

Этап 1 Постановка задачи

Определение цели исследования

Определение состава данных

Сбор данных

Выбор средств анализа данных

Формализация данных

Этап 2 Ввод данных в обработку

Ввод данных в память ЭВМ

Работа с архивом данных

Формирование задания обработки

Этап 3 Качественный анализ

Определение простейших характеристик данных

Визуализация данных

Анализ структуры данных

Этап 4 Количественное описание данных

Выбор модели данных

Выполнение обработки

Этап 5 Интерпретация результатов

Анализ результатов

Принятие решений

Постановка задачи (является определяющим этапом, от которого зависит весь ход анализа) начинается со стадии формулировки цели всего исследования, ради достижения которой и предпринимаются сбор и обработка данных. Исходя из цели, определяется состав данных, которые необходимо собрать. Одна из типичных ошибок исследователей состоит в том, что сначала собираются данные, а затем начинают формулироваться задачи их обработки.

Заранее собранные данные могут отражать совсем другие характеристики явления, нежели те, которые важны для поставленной цели.

Типичная форма при сборе данных – таблица «объект – признак», в которую заносятся значения признаков (свойств), характеризующие каждый исследуемый объект. Примерами признаков могут быть «вес», «длина», «цвет», «профессия», «пол», наличие или отсутствие симптома и т.д. Объекты – «люди», «изделия», «услуги» и т.д. Таблицей такого вида принято называть таблицей экспериментальных данных (ТЭД).

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.

Английское словосочетание «Data Mining» пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания: просев информации, добыча данных, извлечение данных, а также интеллектуальный анализ данных. Более полным и точным является словосочетание «обнаружение знаний в базах данных» (англ. knowledge discovery in databases, KDD).

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применениидеревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining(обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений (визуализация), что позволяет использовать инструментарий Data Mining людьми, не имеющими специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Big Data: технологии анализа Больших данных

Big Data – модный нынче термин, фигурирующий почти на всех профессиональных конференциях, посвященных анализу данных, прогностической аналитике, интеллектуальному анализу данных (data mining), CRM.

Анализ неструктурированных данных Big Data - это действительно большая проблема и о данном вопросе написано и сказано гораздо меньше, чем о хранении данных и технологиях управления Большими данными.

Часто задача состоит в том, чтобы быстро построить точные модели для данных, хранящихся в распределенной файловой системе. Существуют реализации map-reduce для различных алгоритмов data mining/прогностической аналитики, подходящих для масштабной параллельной обработки данных в распределенной файловой системе (что может быть поддержано с помощью платформы STATISTICА StatSoft). Однако, именно из-за того, что вы обработали очень большое количество данных, уверенны ли вы, что итоговая модель является действительно точной?

На самом деле, скорее всего, удобнее строить модели для небольших сегментов данных в распределенной файловой системе.

Точность модели зависит от качества выборки (каждое наблюдение в популяции должно иметь известную вероятность выбора) и её размер связан со сложностью модели. Размер популяции не имеет значения.

Именно по этой причине, например, выборка, состоящая всего из нескольких тысяч голосов, может позволить построить очень точные прогнозы реальных результатов голосования.

Итак, реальная значимость Big Data в распределенных файловых системах состоит не в том, чтобы построить прогностические модели на основе всех данных; точность моделей не будет выше.

⇐ Предыдущая 8 9 10 11 121314 15 16 17 Следующая ⇒

Последнее изменение этой страницы: 2018-05-10; просмотров: 1443.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...