Eksploracja danych: Różnice pomiędzy wersjami
m (Dodanie TL;DR) |
m (cleanup bibliografii i rotten links) |
||
(Nie pokazano 10 wersji utworzonych przez 2 użytkowników) | |||
Linia 1: | Linia 1: | ||
'''Eksploracja danych''' (ang. ''data mining'') jest to [[proces]] odkrywania uogólnionych reguł i [[wiedza|wiedzy]] zawartej w [[baza danych|bazach danych]] oparty o [[:Kategoria:Statystyka|metody statystyczne]] i techniki [[sztuczna inteligencja|sztucznej inteligencji]]. [[Wiedza]] ta nie wynika bezpośrednio z samych [[dane|danych]], ale z faktu, iż to właśnie takie, a nie inne [[dane]] znalazły się razem w jednej bazie danych <ref>, Strykowski S., s. 17 </ref>. | |||
'''Eksploracja danych''' (ang. ''data mining'') jest to [[proces]] odkrywania uogólnionych reguł i [[wiedza|wiedzy]] zawartej w [[baza danych|bazach danych]] oparty o [[:Kategoria:Statystyka | |||
Niektórzy autorzy określają ''data mining'' jako nietrywialną ekstrakcję poprzednio nieznanej wiedzy z danych przechowywanych w [[hurtownia danych|hurtowni]]. Polega ono na wykrywania współzależności, tendencji na podstawie zgromadzonych [[Dane|danych]] za pomocą technik statystycznych, matematycznych i rozpoznawania prawidłowości występujących w danych <ref>, Ryznar Z., s. 10-14 </ref>. | Niektórzy autorzy określają ''data mining'' jako nietrywialną ekstrakcję poprzednio nieznanej wiedzy z danych przechowywanych w [[hurtownia danych|hurtowni]]. Polega ono na wykrywania współzależności, tendencji na podstawie zgromadzonych [[Dane|danych]] za pomocą technik statystycznych, matematycznych i rozpoznawania prawidłowości występujących w danych <ref>, Ryznar Z., s. 10-14 </ref>. | ||
Linia 31: | Linia 15: | ||
* '''CRISP-DM''' (''Cross-Industry Standard Process for Data Mining''). Twórcami tego modelu są NCR Systems Engineering Copenhagen, SPSS/Integraf Solutions Ltd., Daimler-Chrysler oraz OHRA Verzekeringen [[Bank]] Group B.V. | * '''CRISP-DM''' (''Cross-Industry Standard Process for Data Mining''). Twórcami tego modelu są NCR Systems Engineering Copenhagen, SPSS/Integraf Solutions Ltd., Daimler-Chrysler oraz OHRA Verzekeringen [[Bank]] Group B.V. | ||
Ich zdaniem [[model]] eksploracji danych składa się z sześciu etapów: | Ich zdaniem [[model]] eksploracji danych składa się z sześciu etapów: | ||
<google>n</google> | |||
1. Zrozumienie uwarunkowań biznesowych. | 1. Zrozumienie uwarunkowań biznesowych. | ||
Linia 64: | Linia 50: | ||
5. [[Kontrola]]. | 5. [[Kontrola]]. | ||
* '''VcofDM''' (''Virtuos Cycle of Data Mining'') zaprojektowany przez M. J. A. Berrego i G. Linoffa, wybitych specjalistów dziedziny eksploracji danych. Składa się z czterech etapów: | * '''VcofDM''' (''Virtuos Cycle of Data Mining'') zaprojektowany przez M. J. A. Berrego i G. Linoffa, wybitych specjalistów dziedziny eksploracji danych. Składa się z czterech etapów: | ||
1. Zidentyfikowanie problemów biznesowych. | 1. Zidentyfikowanie problemów biznesowych. | ||
2. Przekształcenie danych w informacje. | 2. Przekształcenie danych w informacje. | ||
Linia 85: | Linia 71: | ||
==Wykorzystanie== | ==Wykorzystanie== | ||
Eksploracja danych przynosi wymierne korzyści w różnych obszarach [[Zarządzanie|zarządzania]]. Przykłady zastosowań eksploracji danych to: | Eksploracja danych przynosi wymierne korzyści w różnych obszarach [[Zarządzanie|zarządzania]]. Przykłady zastosowań eksploracji danych to: | ||
* [[identyfikacja]] wzorców zachowań [[klient]]ów przy dokonywaniu zakupów, | * [[identyfikacja]] wzorców zachowań [[klient]]ów przy dokonywaniu zakupów, | ||
* wykrywanie powiązań pomiędzy charakterystykami demograficznymi klientów, | * wykrywanie powiązań pomiędzy charakterystykami demograficznymi klientów, | ||
Linia 93: | Linia 78: | ||
* opracowanie [[dystrybucja|planu dystrybucji towarów]] pomiędzy [[rynek|rynkami zbytu]]. | * opracowanie [[dystrybucja|planu dystrybucji towarów]] pomiędzy [[rynek|rynkami zbytu]]. | ||
== | {{infobox5|list1={{i5link|a=[[Modelowanie procesów]]}} — {{i5link|a=[[7 narzędzi TQC]]}} — {{i5link|a=[[Sztuczne sieci neuronowe]]}} — {{i5link|a=[[Analiza danych]]}} — {{i5link|a=[[Konceptualizacja]]}} — {{i5link|a=[[DMAIC]]}} — {{i5link|a=[[Behavior driven development]]}} — {{i5link|a=[[Zarządzanie strategiczne]]}} — {{i5link|a=[[Cykl Deminga]]}} }} | ||
==Przypisy== | ==Przypisy== | ||
<references/> | <references /> | ||
==Bibliografia== | |||
<noautolinks> | |||
* Morzy T. (1999), ''Eksploracja danych: problemy i rozwiązania'', V Konferencja PLOUG, Zakopane | |||
* Olszak C. (2018), ''Analiza i ocena wybranych modeli eksploracji danych'' | |||
* Ryznar Z. (1998), ''Istota i zadania hurtowni danych'', Informatyka, nr 11 | |||
* Strykowski S. (1996), ''Eksploracja danych'', Informatyka, nr 10 | |||
* Woźniak K. (2005), ''System informacji menedżerskiej jako instrument zarządzania strategicznego w firmie'', praca doktorska, Akademia Ekonomiczna w Krakowie, Kraków | |||
</noautolinks> | |||
{{a|[[Krzysztof Woźniak]], Karolina Gralak}} | {{a|[[Krzysztof Woźniak]], Karolina Gralak}} | ||
[[Kategoria:Zarządzanie informacjami]] | [[Kategoria:Zarządzanie informacjami]] | ||
{{#metamaster:description|Odkryj ukrytą wiedzę w danych dzięki eksploracji danych. Wykorzystuje ona statystykę, sztuczną inteligencję i matematykę do wykrywania trendów i przyczyn problemów biznesowych.}} |
Aktualna wersja na dzień 18:54, 17 gru 2023
Eksploracja danych (ang. data mining) jest to proces odkrywania uogólnionych reguł i wiedzy zawartej w bazach danych oparty o metody statystyczne i techniki sztucznej inteligencji. Wiedza ta nie wynika bezpośrednio z samych danych, ale z faktu, iż to właśnie takie, a nie inne dane znalazły się razem w jednej bazie danych [1].
Niektórzy autorzy określają data mining jako nietrywialną ekstrakcję poprzednio nieznanej wiedzy z danych przechowywanych w hurtowni. Polega ono na wykrywania współzależności, tendencji na podstawie zgromadzonych danych za pomocą technik statystycznych, matematycznych i rozpoznawania prawidłowości występujących w danych [2].
Ponadto eksploracja danych jest także:
- klasycznym narzędziem, które generuje sprawozdania i analizy,
- procesem, który jest automatyczny i nie wymaga nadzorowania ze strony człowieka,
- odszukuje przyczyny problemów przedsiębiorstw lub biznesowych,
- pomimo swojej złożoności jest procesem szybkim [3].
TL;DR
Eksploracja danych to proces odkrywania ukrytej wiedzy w bazach danych za pomocą statystyki i sztucznej inteligencji. Istnieją różne modele i metody eksploracji danych, które pomagają w analizie i generowaniu raportów. Eksploracja danych ma wiele zastosowań w zarządzaniu, takich jak identyfikacja wzorców zachowań klientów, wykrywanie powiązań demograficznych, czy określanie prawidłowości zmian cen akcji.
Modele eksploracji danych
- CRISP-DM (Cross-Industry Standard Process for Data Mining). Twórcami tego modelu są NCR Systems Engineering Copenhagen, SPSS/Integraf Solutions Ltd., Daimler-Chrysler oraz OHRA Verzekeringen Bank Group B.V.
Ich zdaniem model eksploracji danych składa się z sześciu etapów:
1. Zrozumienie uwarunkowań biznesowych.
2. Zrozumienie danych.
3. Przygotowanie danych.
4. Modelowanie - czyli wybór technik, które będą użyte do utworzenia modelu eksploracji danych.
5. Ewaluacja - ocena modelu, jego testowanie i ponowne przejrzenie jego konstrukcji.
6. Wdrożenie.
- SEMMA (Sample, Explore, Modify, Model, Assess), zaprojektowany przez SAS Institute. W jego skład wchodzi pięć etapów:
1. Próbkowanie - wykorzystanie tylko części danych, zanim całość zostanie wprowadzona.
2. Eksplorowanie - w celu głębszego poznania danych.
3. Manipulacja - po etapie eksplorowanie, często potrzebna jest modyfikacja danych
4. Modelowanie - czyli wybór techniki modelowania.
5. Ocena.
- DMAIC (Define, Measure, Analyze, Improve, Control), oparty na strategii Six Sigma. Stworzony przez inżynierów z Instytutu Motoroli. Model skupia się na eliminacji strat i defektów, problemów z jakością w rożnych dziedzinach biznesu. Składa się z pięciu etapów:
1. Definiowanie - określenie celów i identyfikacja problemów biznesowych.
2. Pomiar - zbierane są informacje o aktualnym stanie procesu.
3. Analiza - zdefiniowanie krytycznych przyczyn problemów, uzasadnienie ich wpływu na proces.
4. Usprawnienie - wprowadzanie odpowiednich rozwiązań.
5. Kontrola.
- VcofDM (Virtuos Cycle of Data Mining) zaprojektowany przez M. J. A. Berrego i G. Linoffa, wybitych specjalistów dziedziny eksploracji danych. Składa się z czterech etapów:
1. Zidentyfikowanie problemów biznesowych.
2. Przekształcenie danych w informacje.
3. Podjęcie działań.
4. Mierzenie i ocena wyników [4].
Metody eksploracji danych
Metody eksploracji danych są dzielone na 6 podstawowych klas:
- Klastrowanie - głównym celem tych metod jest odnajdowanie w bazie danych skończonych zbiorów klas obiektów, czyli klastrów, posiadających podobne cechy. Owy proces klastrowania przebiega bardzo często w dwóch cyklach: cykl zewnętrzny, który przebiega po liczbie możliwych klastrów; cykl wewnętrzny, próbujący odnaleźć optymalny podział między klastry.
- Odkrywanie asocjacji - jest to najrozleglejsza klasa metod. Obejmuje odkrywanie różnego rodzaju nieznanych współzależności w bazie danych. Jest to przede wszystkim odkrywanie asocjacji między obiektami.
- Odkrywanie wzorców sekwencji - czyli odkrywanie wzorców zachowań czasowych, na przykład sekwencja notowań giełdowych, zachowania klientów supermarketów.
- Wykrywanie zmian i odchyleń - odnajdywanie różnic pomiędzy oczekiwanymi a aktualnymi wartościami danych, na przykład odnajdywanie anomalnych zachowań klientów firm telekomunikacyjnych.
- Odkrywanie zbieżności w przebiegach czasowych - odnajdywanie podobieństw w czasowych przebiegach, które opisują określone procesy.
- Odkrywanie klasyfikacji - do głównego celu tych metod należy odnajdywanie zależności między klasyfikacją danych obiektów (taką wprowadzoną przez eksperta lub naturalną) a ich charakterystyką [5].
Wykorzystanie
Eksploracja danych przynosi wymierne korzyści w różnych obszarach zarządzania. Przykłady zastosowań eksploracji danych to:
- identyfikacja wzorców zachowań klientów przy dokonywaniu zakupów,
- wykrywanie powiązań pomiędzy charakterystykami demograficznymi klientów,
- identyfikacja lojalnych klientów,
- odnajdywanie współzależności pomiędzy różnymi wskaźnikami finansowymi,
- określanie prawidłowości rządzących zmianami cen akcji na podstawie ich dotychczasowych notowań,
- opracowanie planu dystrybucji towarów pomiędzy rynkami zbytu.
Eksploracja danych — artykuły polecane |
Modelowanie procesów — 7 narzędzi TQC — Sztuczne sieci neuronowe — Analiza danych — Konceptualizacja — DMAIC — Behavior driven development — Zarządzanie strategiczne — Cykl Deminga |
Przypisy
Bibliografia
- Morzy T. (1999), Eksploracja danych: problemy i rozwiązania, V Konferencja PLOUG, Zakopane
- Olszak C. (2018), Analiza i ocena wybranych modeli eksploracji danych
- Ryznar Z. (1998), Istota i zadania hurtowni danych, Informatyka, nr 11
- Strykowski S. (1996), Eksploracja danych, Informatyka, nr 10
- Woźniak K. (2005), System informacji menedżerskiej jako instrument zarządzania strategicznego w firmie, praca doktorska, Akademia Ekonomiczna w Krakowie, Kraków
Autor: Krzysztof Woźniak, Karolina Gralak