Eksploracja danych

Eksploracja danych (ang. data mining) jest to proces odkrywania uogólnionych reguł i wiedzy zawartej w bazach danych oparty o metody statystyczne i techniki sztucznej inteligencji. Wiedza ta nie wynika bezpośrednio z samych danych, ale z faktu, iż to właśnie takie, a nie inne dane znalazły się razem w jednej bazie danych ^[1].

Niektórzy autorzy określają data mining jako nietrywialną ekstrakcję poprzednio nieznanej wiedzy z danych przechowywanych w hurtowni. Polega ono na wykrywania współzależności, tendencji na podstawie zgromadzonych danych za pomocą technik statystycznych, matematycznych i rozpoznawania prawidłowości występujących w danych ^[2].

Ponadto eksploracja danych jest także:

klasycznym narzędziem, które generuje sprawozdania i analizy,
procesem, który jest automatyczny i nie wymaga nadzorowania ze strony człowieka,
odszukuje przyczyny problemów przedsiębiorstw lub biznesowych,
pomimo swojej złożoności jest procesem szybkim ^[3].

TL;DR

Eksploracja danych to proces odkrywania ukrytej wiedzy w bazach danych za pomocą statystyki i sztucznej inteligencji. Istnieją różne modele i metody eksploracji danych, które pomagają w analizie i generowaniu raportów. Eksploracja danych ma wiele zastosowań w zarządzaniu, takich jak identyfikacja wzorców zachowań klientów, wykrywanie powiązań demograficznych, czy określanie prawidłowości zmian cen akcji.

Modele eksploracji danych

CRISP-DM (Cross-Industry Standard Process for Data Mining). Twórcami tego modelu są NCR Systems Engineering Copenhagen, SPSS/Integraf Solutions Ltd., Daimler-Chrysler oraz OHRA Verzekeringen Bank Group B.V.

Ich zdaniem model eksploracji danych składa się z sześciu etapów:

1. Zrozumienie uwarunkowań biznesowych.

2. Zrozumienie danych.

3. Przygotowanie danych.

4. Modelowanie - czyli wybór technik, które będą użyte do utworzenia modelu eksploracji danych.

5. Ewaluacja - ocena modelu, jego testowanie i ponowne przejrzenie jego konstrukcji.

6. Wdrożenie.

SEMMA (Sample, Explore, Modify, Model, Assess), zaprojektowany przez SAS Institute. W jego skład wchodzi pięć etapów:

1. Próbkowanie - wykorzystanie tylko części danych, zanim całość zostanie wprowadzona.

2. Eksplorowanie - w celu głębszego poznania danych.

3. Manipulacja - po etapie eksplorowanie, często potrzebna jest modyfikacja danych

4. Modelowanie - czyli wybór techniki modelowania.

5. Ocena.

DMAIC (Define, Measure, Analyze, Improve, Control), oparty na strategii Six Sigma. Stworzony przez inżynierów z Instytutu Motoroli. Model skupia się na eliminacji strat i defektów, problemów z jakością w rożnych dziedzinach biznesu. Składa się z pięciu etapów:

1. Definiowanie - określenie celów i identyfikacja problemów biznesowych.

2. Pomiar - zbierane są informacje o aktualnym stanie procesu.

3. Analiza - zdefiniowanie krytycznych przyczyn problemów, uzasadnienie ich wpływu na proces.

4. Usprawnienie - wprowadzanie odpowiednich rozwiązań.

5. Kontrola.

VcofDM (Virtuos Cycle of Data Mining) zaprojektowany przez M. J. A. Berrego i G. Linoffa, wybitych specjalistów dziedziny eksploracji danych. Składa się z czterech etapów:

1. Zidentyfikowanie problemów biznesowych.

2. Przekształcenie danych w informacje.

3. Podjęcie działań.

4. Mierzenie i ocena wyników ^[4].

Metody eksploracji danych

Metody eksploracji danych są dzielone na 6 podstawowych klas:

Klastrowanie - głównym celem tych metod jest odnajdowanie w bazie danych skończonych zbiorów klas obiektów, czyli klastrów, posiadających podobne cechy. Owy proces klastrowania przebiega bardzo często w dwóch cyklach: cykl zewnętrzny, który przebiega po liczbie możliwych klastrów; cykl wewnętrzny, próbujący odnaleźć optymalny podział między klastry.
Odkrywanie asocjacji - jest to najrozleglejsza klasa metod. Obejmuje odkrywanie różnego rodzaju nieznanych współzależności w bazie danych. Jest to przede wszystkim odkrywanie asocjacji między obiektami.
Odkrywanie wzorców sekwencji - czyli odkrywanie wzorców zachowań czasowych, na przykład sekwencja notowań giełdowych, zachowania klientów supermarketów.
Wykrywanie zmian i odchyleń - odnajdywanie różnic pomiędzy oczekiwanymi a aktualnymi wartościami danych, na przykład odnajdywanie anomalnych zachowań klientów firm telekomunikacyjnych.
Odkrywanie zbieżności w przebiegach czasowych - odnajdywanie podobieństw w czasowych przebiegach, które opisują określone procesy.
Odkrywanie klasyfikacji - do głównego celu tych metod należy odnajdywanie zależności między klasyfikacją danych obiektów (taką wprowadzoną przez eksperta lub naturalną) a ich charakterystyką ^[5].

Wykorzystanie

Eksploracja danych przynosi wymierne korzyści w różnych obszarach zarządzania. Przykłady zastosowań eksploracji danych to:

identyfikacja wzorców zachowań klientów przy dokonywaniu zakupów,
wykrywanie powiązań pomiędzy charakterystykami demograficznymi klientów,
identyfikacja lojalnych klientów,
odnajdywanie współzależności pomiędzy różnymi wskaźnikami finansowymi,
określanie prawidłowości rządzących zmianami cen akcji na podstawie ich dotychczasowych notowań,
opracowanie planu dystrybucji towarów pomiędzy rynkami zbytu.

Eksploracja danych — artykuły polecane
Modelowanie procesów — 7 narzędzi TQC — Sztuczne sieci neuronowe — Analiza danych — Konceptualizacja — DMAIC — Behavior driven development — Zarządzanie strategiczne — Cykl Deminga

Przypisy

↑ , Strykowski S., s. 17
↑ , Ryznar Z., s. 10-14
↑ , Olszak C., s. 253
↑ , Olszak C., s. 255-256
↑ , Morzy T., s. 4

Bibliografia

Morzy T. (1999) Eksploracja danych: problemy i rozwiązania V Konferencja PLOUG, Zakopane
Olszak C. (2018), Analiza i ocena wybranych modeli eksploracji danych
Ryznar Z. (1998), Istota i zadania hurtowni danych, Informatyka, nr 11
Strykowski S. (1996), Eksploracja danych, Informatyka, nr 10
Woźniak K. (2005), System informacji menedżerskiej jako instrument zarządzania strategicznego w firmie, praca doktorska, Akademia Ekonomiczna w Krakowie, Kraków

Autor: Krzysztof Woźniak, Karolina Gralak

[1] , Strykowski S., s. 17

[2] , Ryznar Z., s. 10-14

[3] , Olszak C., s. 253

[4] , Olszak C., s. 255-256

[5] , Morzy T., s. 4

[1]

[2]

[3]

[4]

[5]

Anonimowy

Szukaj

Eksploracja danych

Przestrzenie nazw

Więcej

Działania na stronie

Spis treści

TL;DR

Modele eksploracji danych

Metody eksploracji danych

Wykorzystanie

Przypisy

Bibliografia

Nawigacja

Encyklopedia

Narzędzia wiki

Narzędzia wiki

Anonimowy

Szukaj

Eksploracja danych

TL;DR

Modele eksploracji danych

Metody eksploracji danych

Wykorzystanie

Przypisy

Bibliografia

Nawigacja

Narzędzia wiki

Narzędzia dla stron

Kategorie