Eksploracja danych

Z Encyklopedia Zarządzania
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.
Eksploracja danych
Polecane artykuły


Eksploracja danych (ang. data mining) jest to proces odkrywania uogólnionych reguł i wiedzy zawartej w bazach danych oparty o metody statystyczne i techniki sztucznej inteligencji. Wiedza ta nie wynika bezpośrednio z samych danych, ale z faktu, iż to właśnie takie, a nie inne dane znalazły się razem w jednej bazie danych [1].

Niektórzy autorzy określają data mining jako nietrywialną ekstrakcję poprzednio nieznanej wiedzy z danych przechowywanych w hurtowni. Polega ono na wykrywania współzależności, tendencji na podstawie zgromadzonych danych za pomocą technik statystycznych, matematycznych i rozpoznawania prawidłowości występujących w danych [2].

Ponadto eksploracja danych jest także:

  • klasycznym narzędziem, które generuje sprawozdania i analizy,
  • procesem, który jest automatyczny i nie wymaga nadzorowania ze strony człowieka,
  • odszukuje przyczyny problemów przedsiębiorstw lub biznesowych,
  • pomimo swojej złożoności jest procesem szybkim [3].

Modele eksploracji danych

  • CRISP-DM (Cross-Industry Standard Process for Data Mining). Twórcami tego modelu są NCR Systems Engineering Copenhagen, SPSS/Integraf Solutions Ltd., Daimler-Chrysler oraz OHRA Verzekeringen Bank Group B.V.

Ich zdaniem model eksploracji danych składa się z sześciu etapów:

1. Zrozumienie uwarunkowań biznesowych.

2. Zrozumienie danych.

3. Przygotowanie danych.

4. Modelowanie - czyli wybór technik, które będą użyte do utworzenia modelu eksploracji danych.

5. Ewaluacja - ocena modelu, jego testowanie i ponowne przejrzenie jego konstrukcji.

6. Wdrożenie.

  • SEMMA (Sample, Explore, Modify, Model, Assess), zaprojektowany przez SAS Institute. W jego skład wchodzi pięć etapów:

1. Próbkowanie - wykorzystanie tylko części danych, zanim całość zostanie wprowadzona.

2. Eksplorowanie - w celu głębszego poznania danych.

3. Manipulacja - po etapie eksplorowanie, często potrzebna jest modyfikacja danych

4. Modelowanie - czyli wybór techniki modelowania.

5. Ocena.

  • DMAIC (Define, Measure, Analyze, Improve, Control), oparty na strategii Six Sigma. Stworzony przez inżynierów z Instytutu Motoroli. Model skupia się na eliminacji strat i defektów, problemów z jakością w rożnych dziedzinach biznesu. Składa się z pięciu etapów:

1. Definiowanie - określenie celów i identyfikacja problemów biznesowych.

2. Pomiar - zbierane są informacje o aktualnym stanie procesu.

3. Analiza - zdefiniowanie krytycznych przyczyn problemów, uzasadnienie ich wpływu na proces.

4. Usprawnienie - wprowadzanie odpowiednich rozwiązań.

5. Kontrola.

  • VcofDM (Virtuos Cycle of Data Mining) zaprojektowany przez M. J. A. Berrego i G. Linoffa, wybitych specjalistów dziedziny eksploracji danych. Składa się z czterech etapów:

1. Zidentyfikowanie problemów biznesowych.

2. Przekształcenie danych w informacje.

3. Podjęcie działań.

4. Mierzenie i ocena wyników [4].

Metody eksploracji danych

Metody eksploracji danych są dzielone na 6 podstawowych klas:

  1. Klastrowanie - głównym celem tych metod jest odnajdowanie w bazie danych skończonych zbiorów klas obiektów, czyli klastrów, posiadających podobne cechy. Owy proces klastrowania przebiega bardzo często w dwóch cyklach: cykl zewnętrzny, który przebiega po liczbie możliwych klastrów; cykl wewnętrzny, próbujący odnaleźć optymalny podział między klastry.
  2. Odkrywanie asocjacji - jest to najrozleglejsza klasa metod. Obejmuje odkrywanie różnego rodzaju nieznanych współzależności w bazie danych. Jest to przede wszystkim odkrywanie asocjacji między obiektami.
  3. Odkrywanie wzorców sekwencji - czyli odkrywanie wzorców zachowań czasowych, na przykład sekwencja notowań giełdowych, zachowania klientów supermarketów.
  4. Wykrywanie zmian i odchyleń - odnajdywanie różnic pomiędzy oczekiwanymi a aktualnymi wartościami danych, na przykład odnajdywanie anomalnych zachowań klientów firm telekomunikacyjnych.
  5. Odkrywanie zbieżności w przebiegach czasowych - odnajdywanie podobieństw w czasowych przebiegach, które opisują określone procesy.
  6. Odkrywanie klasyfikacji - do głównego celu tych metod należy odnajdywanie zależności między klasyfikacją danych obiektów (taką wprowadzoną przez eksperta lub naturalną) a ich charakterystyką [5].

Wykorzystanie

Eksploracja danych przynosi wymierne korzyści w różnych obszarach zarządzania. Przykłady zastosowań eksploracji danych to:

Bibliografia

Przypisy

  1. , Strykowski S., s. 17
  2. , Ryznar Z., s. 10-14
  3. , Olszak C., s. 253
  4. , Olszak C., s. 255-256
  5. , Morzy T., s. 4

Autor: Krzysztof Woźniak, Karolina Gralak