Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Проблеми окремих джерел даних




Проблеми окремого джерела даних на рівні схеми

Область/ Проблема

Забруднені дані Причини/ Примітки
Атрибут Неприпустимі значення ДатаНародження=30.13.70 Значення поза припустимою областю
Запис Порушені логічних зв'язків Вік=22, ДатаНародження =12.02.70 Вік не відповідає року народження
Тип запису Порушення унікальності Співробітник1=(Прізвище='Петренко', ІдНомер=123456) Співробітник2=(Прізвище='Іванов', ІдНомер=123456) Порушено унікальність ідентифікаційного номера
Джерело Порушення цілісності посилань Співробітник=(Прізвище=’Петренко’, КодВідділу=127) Не визначений відділ 127

 

Проблеми окремих джерел даних на рівні елемента

Область/ Проблема

Забруднені дані Причини/ Примітки

Атрибут

Втрачені значення ІдКод= 9999999999 Неуведені значення (безглузді або невизначені)
Орфографічні помилки Місто=’Хмельницьк’ Звичайно помилки, фонетичні помилки
Зашифровані значення й абревіатури   Категорія='B' Посада= 'Сісадмин'  

Область/ Проблема

Забруднені дані Причини/ Примітки

 

Вкладені значення Ім'я=’Петренко І. 12.02.80 Одеса’ Множина значень в одному атрибуті (наприклад, у полі вільного формату)
Значення, що не відповідають своїм полям Місто=’Україна'  
Запис Порушені логічні зв'язки Місто=’Одеса’, Індекс=44065 Індекс повинен відповідати місту

Тип запису

Перестановка слів ПІБ1='І.Петренко', ПІБ2='Іванов П.' Звичайно зустрічається в полях вільного формату
Записи, що дублюються Співробітник1=( ПІБ ='Петренко Іван') Співробітник2=( ПІБ ='Петренко І.') У результаті помилок при уведенні даних якась особа присутня двічі
Суперечливі записи Співробітник1=( ПІБ ='Петренко Іван', ДатаНародження =12.12.1980) Співробітник2=( ПІБ ='Петренко І.', ДатаНародження =12.02.1980) Той самий об'єкт реального оточення описується різними значеннями
Джерело Невірні посилання Співробітник1=( ДатаНародження =’Петренко Іван’, КодВідділу =17) Відділ 17 визначений, але не відповідає об'єкту

 

Проблеми множини джерел даних

Проблеми, представлені в окремих джерелах, збільшуються у випадку інтеграції множини джерел даних. Кожне джерело може містити забруднені, а також дані, представлені різним образом, що перекривають і суперечать один одному. Причиною цьому служить звичайно незалежна розробка, впровадження й підтримка джерел, орієнтована на специфічні потреби підприємств. У результаті проявляється значна неоднорідність у системах керування даними, моделях даних, схемах і поточних даних.

Основні проблеми при проектуванні схеми – це конфлікти найменувань і структурні конфлікти. Конфлікти найменування виникають, коли те саме ім'я використовується для різних об'єктів (омоніми) або різні імена використовуються для того самого об'єкта (синоніми). Структурні конфлікти пов'язані з різними представленнями того самого об'єкта в різних джерелах, наприклад, атрибутивне представлення проти табличного, різна структура компонентів, різні типи даних, різні обмеження цілісності й т.д.

Навіть коли зустрічаються ті самі імена атрибутів і типи даних, представлення (наприклад, для сімейного статусу) або інтерпретації значень (наприклад, одиниці виміру грошової суми) від джерела до джерела можуть різнитися. Крім того, інформація в джерелах може бути представлена в різних рівнях агрегації (наприклад, продажі по продуктах проти продажів по групах продуктів) або відноситися до різних періодів (наприклад, поточні продажі на вчорашній день для джерела 1 проти поточних продажів на минулий тиждень для джерела 2).

Основною проблемою очищення даних з множини джерел є виявлення даних, що перекриваються, особливо – відповідні один одному дані, що відносяться до того самого об'єкта реального оточення (наприклад, споживач). Цю проблему називають також проблемою ідентичності об'єкта, проблемою виключення дублювання або проблемою злиття/видалення. Часто інформація тільки місцями надлишкова, і джерела можуть доповнювати один одного, забезпечуючи більш повну інформацію про об'єкт. інформація, що дублюється, повинна видалятися, а інформація, що доповнює, повинна консолідуватися й з'єднуватися, щоб об'єкти реального оточення одержали погоджене представлення.

 

Приклади проблем множини джерел на рівні схеми й елемента даних

Замовник (джерело 1)

Id замовника Ім'я Вулиця Місто Стать
11 Євгенія Петренко Вул. Шевченко 2 Білгород-Дністровський, Одеська обл. 0
24 Євгеній Петренко Пр. Шевченко 2 Б.-Дністровський, Од. обл. 1

 

Клієнт (джерело 2)

N клієнта Прізвище Ім'я Рід Адреса Телефон/Факс
24 Петренко Євгеній Ж Миколаївська обл., Первомайськ, вул. Шевченко 2 333-222-6542/  333-222-6599
493 Петренко Евг. М. М Од. обл., Білгород-Дністровський, ін. Шевченко 2 444-555-6666

Хоча обидва джерела представлені в реляційному форматі, однак вони відображають конфлікти схеми й даних. На рівні схеми існують конфлікти імен (синоніми Замовник/Клієнт, Ідентифікатор/Номер, Стать/Рід) і структурні конфлікти (різні представлення імен і адрес). На рівні елемента даних можна спостерігати різні представлення роду (0/1 проти Ж/M) і ймовірно записи, що дублюються (Петренко Євгенія). Останнє також дозволяє побачити, що, незважаючи на те, що Ідентифікатор/Номер обоє є ідентифікаторами, характерними для конкретних джерел, їхній уміст не порівнянний між собою; різні номери (11/493) можуть відноситися до тієї самої особи, а різні особи можуть мати той самий номер (24). Рішення даних проблем вимагає одночасно й інтеграції схеми й очищення даних; третя таблиця демонструє можливе рішення.

Клієнти (об'єднання цільових даних з очищеними)

Id Прізвище Ім'я Рід Вулиця Місто
1 Петренко Євгенія Ж вул. Шевченко 2 Білгород-Дністровський
2 Петренко Євгеній М вул. Шевченко 2 Білгород-Дністровський
3 Петренко Євгеній М вул. Шевченко 2 Первомайськ

(продовження)

Область Індекс Телефон Факс Id замовника N клієнта
Одеська 67700 333-222-6542 333-222-6599 11 493
Одеська 67700 444-555-6666   24  
Миколаївська 55200 444-555-6666     24

Слід зазначити, що конфлікти схеми необхідно врегулювати в першу чергу, щоб забезпечити можливість очищення даних, особливо – виявлення дублікатів на основі уніфікованого Представлення імен і адрес і зіставлення значень Рід/Стать.

Питання для самоперевірки

1. Які проблеми окремих джерел даних Ви знаєте?

2. Перелічите проблеми очищення даних для множини джерел.

3. У чому можуть бути причини виникнення «брудних даних»?

Методичні вказівки до лекції:[2, с. 31–37]; [6,с. 91–102, 189-251].

 

Вправи

1. Приведіть приклади виникнення проблем одного джерела даних на рівні схеми для предметної області «Поліклініка».

2. Приведіть приклади виникнення проблем одного джерела даних на рівні елемента даних для предметної області «Банк».

3. Приведіть приклади виникнення проблем множини джерел даних для предметної області «Відділ кадрів студентів» для ВНЗ, що має множину факультетів.

 


ЛЕКЦІЯ №11
 ОЧИЩЕННЯ ДАНИХ (продовження)

Розглядаються наступні питання:

· методи очищення даних;

· вирішення конфліктів;

· приклади виникнення «брудних даних».



Методи очищення даних

У цілому, очищення даних включає кілька етапів:

· Аналіз даних: для виявлення підлягаючих видаленню видів помилок і невідповідностей, поряд з ручною перевіркою даних або їхніх шаблонів, необхідно використовувати аналітичні програми для одержання метаданих про властивості даних і виявлення проблем якості даних.

· Визначення порядку й правил перетворення даних: залежно від числа джерел даних, ступеня їхньої неоднорідності й забруднення даних, вони можуть вимагати досить об'ємного перетворення й очищення. Перетворення даних повинні, наскільки можливо, визначатися за допомогою запитів і мапування з автоматичною генерацією коду перетворення. До того ж, у процесі перетворення повинна існувати можливість запуску написаного користувачем коду очищення й спеціальних засобів. Етапи перетворення можуть вимагати зворотного зв'язку з користувачем по тим елементам даних, для яких відсутня убудована логіка очищення.

· Підтвердження: правильність і ефективність процесу й визначень перетворення повинні тестуватися й оцінюватися, наприклад, на прикладі або копії даних джерела, – щоб з'ясувати, чи необхідно якось поліпшити ці визначення. При аналізі, проектуванні й підтвердженні може знадобитися множина ітерацій, наприклад, через те, що деякі помилки стають помітні тільки після певних перетворень.

· Перетворення.

· Противоток очищених даних: після того, як помилки (окремого джерела) вилучені, очищені дані повинні замістити забруднені дані у вхідних джерелах, щоб поліпшені дані потрапили й в успадковані застосування й надалі при витязі не вимагали додаткового очищення.

 

Аналіз даних

Для досягнення якості даних, що відповідає джерелу, метадані, відбиті в схемах, звичайно недостатні, особливо якщо обмежень цілісності задано мало. Тому для одержання модернізованих метаданих з характеристиками даних важливо аналізувати реальні приклади. Існує два зв'язаних між собою методу аналізу: профайлінг даних і data mining.

Профайлінг даних орієнтований на зразковий аналіз окремих атрибутів. При цьому відбувається одержання такої інформації, як тип, довжина, спектр значень, дискретні значення даних і їхня частота, зміна, унікальність, наявність невизначених значень, типових рядкових моделей (наприклад, для номерів телефонів) і ін., що дозволяє забезпечити точне представлення різних аспектів якості атрибута.

 

Data mining допомагає знайти специфічні моделі даних у великих наборах даних – наприклад, відношення між декількома атрибутами. Саме на це спрямовані так звані описові моделі data mining, включаючи угруповання, узагальнення, пошук асоціацій і послідовностей. При цьому можуть бути отримані обмеження цілісності в атрибутах – наприклад, функціональні залежності або характерні для конкретних застосувань бізнес-правила, – які можна використовувати для заповнення втрачених і виправлення неприпустимих значень, а також для виявлення дублікатів записів у джерелах даних.

Приклади використання модернізованих метаданих для роботи із проблемами якості даних

Проблеми Метадані Приклади/пояснення

Неприпустимі значення

Кількість елементів Наприклад, кількість елементів (Стать)>2 указує на проблему
Max, min Max і min не повинні виходити за межі області припустимих значень
Невідповідності, відхилення Невідповідності й відхилення статистичних величин не повинні перевищувати граничних

Втрачені значення

Невизначені значення Відсоток/число невизначених значень
Значення атрибутів + значення за замовчуванням Наявність значення за замовчуванням може вказувати на відсутність справжнього значення
Різні представлення значень   Значення атрибутів Порівняння множини значень атрибутів стовпця однієї таблиці з тією же множиною для стовпця іншої таблиці
Проблеми Метадані Приклади/пояснення

Дублікати

 

Кількість елементів + унікальність Кількість значень атрибута повинне дорівнювати кількості рядків
Значення атрибутів Сортування значень по числу входжень; більш 1 входження означає дублікат.

Визначення перетворень даних

Описати необхідні перетворення можна відповідною мовою, наприклад, підтримуваною графічним інтерфейсом користувача. Різні засоби ETL містять таку можливість, підтримуючи власні мови правил. Більш загальний і гнучкий підхід полягає в застосуванні стандартної мови запитів SQL для виконання перетворень даних і використання можливостей розширень мов застосувань, особливо функцій, визначених користувачем (UDF). UDF можуть бути реалізовані в SQL або мовою програмування загального призначення, що містить вкладені оператори SQL. Вони дозволяють реалізовувати широкий спектр перетворень даних і підтримують просте використання різних перетворень і обробки запитів. Більш того, їхнє виконання СКБД може знизити вартість доступу до даних.

Приклад опису кроку перетворення

CREATE VIEW Client2

(FamCl, NameCl, OtchCl, Gender, Street, City, Region, IndexCl, Id)

AS

SELECT FamExtract(FIO), NameExtract (FIO), OtchExtract (FIO), Sex,

StreetExtract(Address), CityExtract (Address),

RegionExtract (Address), IndexExtract (Address), Id

FROM Client

Ці перетворення визначають представлення, відповідно до якого можуть виконуватися наступні мапування. Перетворення виконує зміну схеми, шляхом додавання нових атрибутів, отриманих розщепленням імені й адреси джерела. Необхідні витяги даних досягаються за допомогою UDF. Реалізації UDF можуть містити логіку очищення, наприклад, для видалення невірного написання найменувань міст або відновлення втрачених індексів.

Вирішення конфліктів

Іноді потрібно виконати підготовку окремого джерела до інтеграції з іншими джерелами, що може включати наступні етапи:

· Витяг значень із атрибутів вільного формату (розщеплення атрибутів). Атрибути вільного формату часто містять множину окремих значень, що підлягають витягу для підвищення точності представлення й підтримки наступних етапів очищення – таких, як зіставлення елементів даних і видалення дублікатів. Типовими прикладами є поля імен і адрес. Необхідні на цьому етапі перетворення перерозподіляють значення в полі для одержання можливості переміщення слів і витягають значення для розщеплених атрибутів.

· Перевірка допустимості й виправлення. На цьому етапі кожний елемент даних джерела даних досліджується на наявність помилок, а виявлені помилки в міру можливості автоматично виправляються. Перевірка орфографії на основі перегляду словника потрібна для ідентифікації й виправлення помилок у написанні слів. Словники географічних найменувань і поштових індексів допомагають коректувати адресні дані. Атрибутивні залежності (дата народження – вік, загальна вартість – ціна за шт., місто – регіональний телефонний код, і т.д.) можуть використовуватися для виявлення проблем і заміни втрачених або виправлення невірних значень.

· Стандартизація. Для співвіднесення й інтеграції елементів даних, значення атрибутів варто перетворити в погоджений і уніфікований формат. Наприклад, записи про дату й час повинні бути оформлені в спеціальному форматі, імена й інші символьні дані повинні конвертуватися або в прописні, або в малі літери, і т.д. Текстові дані можуть бути стислі й уніфіковані за допомогою виявлення основи, видалення префіксів, суфіксів і вступних слів. Абревіатури й зашифровані схеми підлягають погодженій розшифровці за допомогою спеціального словника синонімів або застосування визначених правил перетворення.

Вирішення проблем множини джерел вимагає зміни схем для досягнення інтеграції, у тому числі й розщеплення, злиття, згортання й розгортання атрибутів і таблиць. На рівні елемента даних повинні дозволятися проблеми із суперечливими представленнями й даними, що перекривають один одного. До видалення дублікатів звичайно приступають після того, як більша частина інших етапів перетворення й очищення вже виконані, особливо – після очищення від помилок і суперечних представлень даних окремого джерела. Цей процес виконується або над двома очищеними джерелами одночасно або над окремим, уже інтегрованим набором даних. Видалення дублікатів вимагає, у першу чергу, виявлення (тобто зіставлення) схожих записів, що відносяться до того самого об'єкта реального оточення. Другим кроком повинне стати злиття схожих записів в один, що включає всі відповідні атрибути без надлишковості.

У найпростішому випадку для кожного запису існує ідентифікаційний атрибут або комбінація атрибутів, яку можна використовувати для зіставлення записів, наприклад, якщо різні джерела мають загальний первинний ключ або якщо існують різні інші загальні унікальні атрибути. У випадку окремого набору дані зіставлення можуть визначатися сортуванням по ідентифікуючому атрибуті й перевіркою погодженості сусідніх записів. Для визначення більшості або навіть всіх зіставлень в «нечіткому зіставленні» (приблизному об'єднанні) необхідно знайти подібні записи, засновані на правилі зіставлення. Наприклад, таке правило може затверджувати, що записи по деякій особі, швидше за все, погоджені, якщо погоджене ім'я й фрагменти. Ступінь схожості між записами часто виміряється числовими значеннями між 0 і 1, що звичайно залежать від характеристик застосування. Наприклад, різні атрибути в правилі зіставлення можуть надавати різного значення загальному рівню подібності. Для строкових компонентів (наприклад, ім'я споживача, найменування компанії й ін.) можуть виявитися корисними точне зіставлення й неявні методи, засновані на групових символах, частоті знаків, редакторських відстанях, відстанях клавіатури й фонетичної подібності (soundex).

Такий метод визначення відповідності елементів даних, як правило, є надзвичайно довгою операцією при великих об’ємах даних.

Всі записи, для яких показник подібності перевищує граничний, можуть розглядатися як відповідності або як кандидати на відповідність, далі підтверджувані або відхилені користувачем.

Сьогодні на ринку існує великий вибір засобів для підтримки перетворень і очищення даних. Ряд засобів орієнтовані на специфічну область – наприклад, на очищення даних по іменах і адресах або на специфічні фази очищення – наприклад, аналіз даних або виключення дублікатів. Завдяки своїй обмеженій області застосування, спеціалізовані засоби звичайно дуже ефективні, однак для роботи із широким спектром проблем перетворення й очищення вони мають потребу в доповненні іншими інструментами. Загальною проблемою засобів ETL є обмежені можливості взаємодії за рахунок власних API і форматів метаданих, що ускладнюють спільне використання різних засобів.










Последнее изменение этой страницы: 2018-05-10; просмотров: 230.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...