Теми рефератів
Авіація та космонавтика Банківська справа Безпека життєдіяльності Біографії Біологія Біологія і хімія Біржова справа Ботаніка та сільське гос-во Бухгалтерський облік і аудит Військова кафедра Географія
Геодезія Геологія Держава та право Журналістика Видавнича справа та поліграфія Іноземна мова Інформатика Інформатика, програмування Історія Історія техніки
Комунікації і зв'язок Краєзнавство та етнографія Короткий зміст творів Кулінарія Культура та мистецтво Культурологія Зарубіжна література Російська мова Маркетинг Математика Медицина, здоров'я Медичні науки Міжнародні відносини Менеджмент Москвоведение Музика Податки, оподаткування Наука і техніка Решта реферати Педагогіка Політологія Право Право, юриспруденція Промисловість, виробництво Психологія Педагогіка Радіоелектроніка Реклама Релігія і міфологія Сексологія Соціологія Будівництво Митна система Технологія Транспорт Фізика Фізкультура і спорт Філософія Фінансові науки Хімія Екологія Економіка Економіко-математичне моделювання Етика Юриспруденція Мовознавство Мовознавство, філологія Контакти
Українські реферати та твори » Информатика, программирование » Методи Data Mining

Реферат Методи Data Mining

Зміст

Що таке Data Mining

Класифікація задач Data Mining

Задача класифікації і регресії

Завдання пошуку асоціативних правил

Задача кластеризації

Можливості Data Miner в Statistica 8

Засоби аналізу STATISTICA Data Miner

Приклад роботи в Data Minin

Створення звітів і підсумків

Сортування інформації

Аналіз цін житлових ділянок

Аналіз предикторів виживання

Висновок


Що таке Data Mining

Сучасний комп'ютерний термін Data Mining переводиться як В«вилучення інформаціїВ» або В«видобуток данихВ». Нерідко разом з Data Mining зустрічаються терміни Knowledge Discovery (В«Виявлення знаньВ») і Data Warehouse (В«сховище данихВ»). Виникнення зазначених термінів, які є невід'ємною частиною Data Mining, пов'язане з новим витком у розвитку засобів і методів обробки та зберігання даних. Отже, мета Data Mining полягає у виявленні прихованих правил і закономірностей у великих (Дуже великих) обсягах даних.

Справа в тому, що людський розум сам по собі не пристосований для сприйняття величезних масивів різнорідної інформації. В середньому людина, за винятком деяких індивідуумів, не здатний уловлювати більше двох-трьох взаємозв'язків навіть у невеликих вибірках. Але і традиційна статистика, довгий час претендувала на роль основного інструмента аналізу даних, так само нерідко пасує при рішенні задач з реального життя. Вона оперує усередненими характеристиками вибірки, які часто є фіктивними величинами (середньої платоспроможністю клієнта, коли в залежності від функції ризику або функції втрат вам необхідно вміти прогнозувати спроможність і наміри клієнта; середньої інтенсивністю сигналу, тоді як вам цікаві характерні особливості та передумови піків сигналу і т. д.).

Тому методи математичної статистики виявляються корисними головним чином для перевірки заздалегідь сформульованих гіпотез, тоді як визначення гіпотези іноді буває досить складною і трудомісткою задачею. Сучасні технології Data Mining переробляють інформацію з метою автоматичного пошуку шаблонів (патернів), характерних для будь-яких фрагментів неоднорідних багатомірних даних. В відміну від оперативної аналітичної обробки даних (OLAP) в Data Mining тягар формулювання гіпотез і виявлення незвичайних (unexpected) шаблонів перекладено з людини на комп'ютер. Data Mining - це не один, а сукупність великого числа різних методів виявлення знань. Вибір методу часто залежить від типу наявних даних і від того, яку інформацію ви намагаєтеся отримати. Ось, наприклад, деякі методи: асоціація (об'єднання), класифікація, кластеризація, аналіз часових рядів і прогнозування, нейронні мережі і т. д.

Розглянемо властивості виявляються знань, дані у визначенні, більш докладно.

Знання повинні бути нові, раніше невідомі. Витрачені зусилля на відкриття знань, які вже відомі користувачеві, не окупаються. Тому цінність представляють саме нові, раніше невідомі знання.

Знання повинні бути нетривіальні. Результати аналізу повинні відображати неочевидні, несподівані закономірності в даних, складові так звані приховані знання. Результати, які могли б бути отримані більш простими способами (наприклад, візуальним переглядом), не виправдовують залучення потужних методів Data Mining.

Знання повинні бути практично корисні. Знайдені знання повинні бути застосовні, в тому числі і на нових даних, з досить високим ступенем достовірності. Корисність полягає в тому, щоб ці знання могли принести певну вигоду при їх застосуванні.

Знання повинні бути доступними для розуміння людині. Знайдені закономірності повинні бути логічно з'ясовні, в іншому випадку існує вірогідність, що вони є випадковими. Крім того, виявлені знання мають бути представлені в зрозумілому для людини вигляді.

В Data Mining для представлення отриманих знань служать моделі. Види моделей залежать від методів їх створення. Найбільш поширеними є: правила, дерева рішень, кластери і математичні функції.

Сфера застосування Data Mining нічим не обмежена - Data Mining потрібен скрізь, де є які-небудь дані. Досвід багатьох таких підприємств показує, що віддача від використання Data Mining може досягати 1000%. Наприклад, відомі повідомлення про економічному ефекті, в 10-70 разів перевищив початкові витрати від 350 до 750 тис. дол. Наводяться відомості про проект у 20 млн. дол., Який окупився всього за 4 місяці. Інший приклад - річна економія 700 тис. дол. за рахунок впровадження Data Mining в мережі універсамів у Великобританії. Data Mining представляють велику цінність для керівників та аналітиків в їх повсякденному діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining вони можуть отримати відчутні переваги в конкурентній боротьбі.

Класифікація завдань DataMining

Методи DataMining дозволяють вирішити багато завдань, з якими стикається аналітик. З них основними є: класифікація, регресія, пошук асоціативних правил і кластеризація. Нижче наведено короткий опис основних завдань аналізу даних.

1) Завдання класифікації зводиться до визначення класу об'єкта по його характеристиках. Необхідно зауважити, що в цьому завданні безліч класів, до яких може бути віднесений об'єкт, заздалегідь відомо.

2) Задача регресії, подібно задачі класифікації, дозволяє визначити за відомими характеристиками об'єкта значення деякого його параметра. На відміну від задачі класифікації значенням параметра є не кінцеве безліч класів, а безліч дійсних чисел.

3) Задача асоціації. При пошуку асоціативних правил метою є знаходження частих залежностей (або асоціацій) між об'єктами або подіями. Знайдені залежності представляються у вигляді правил і можуть бути використані як для кращого розуміння природи аналізованих даних, так і для передбачення появи подій.

4) Задача кластеризації полягає в пошуку незалежних груп (кластерів) і їх характеристик у всьому безлічі аналізованих даних. Вирішення цього завдання допомагає краще зрозуміти дані. Крім того, угрупування однорідних об'єктів дозволяє скоротити їх число, а отже, і полегшити аналіз.

5) Послідовні шаблони - встановлення закономірностей між зв'язаними в часу подіями, тобто виявлення залежності, що якщо відбудеться подія X, то через заданий час відбудеться подія Y.

6) Аналіз відхилень - виявлення найбільш нехарактерних шаблонів.

Перераховані завдання по призначенням поділяються на описові і Предсказательная.

Описові (Descriptive) завдання приділяють увагу поліпшенню розуміння аналізованих даних. Ключовий момент у таких моделях - легкість і прозорість результатів для сприйняття людиною. Можливо, виявлені закономірності будуть специфічної рисою саме конкретних досліджуваних даних і більше ніде не зустрінуться, але це все одно може бути корисно і тому повинно бути відомо. До такого виду завдань відносяться кластеризація і пошук асоціативних правил.

Рішення Предсказательная (Predictive) завдань розбивається на два етапи. На першому етапі на підставі набору даних з відомими результатами будується модель. На другому етапі вона використовується для передбачення результатів на підставі нових наборів даних. При цьому, природно, потрібно, щоб побудовані моделі працювали максимально точно. До даного виду завдань відносять завдання класифікації і регресії. Сюди можна віднести і завдання пошуку асоціативних правил, якщо результати її вирішення можуть бути використані для передбачення появи деяких подій.

За способами рішення завдання поділяють на supervised learning (навчання з учителем) і unsupervised learning (навчання без учителя). Така назва походить від терміна Machine Learning (машинне навчання), часто використовуваного в англомовній літературі і позначає всі технології Data Mining.

У разі supervised learning завдання аналізу даних вирішується в декілька етапів. ...


Страница 1 из 4Следующая страница

Друкувати реферат
Замовити реферат
Товары
загрузка...
Наверх Зворотнiй зв'язок