Hurtownia danych: Różnice pomiędzy wersjami

Z Encyklopedia Zarządzania
m (Infobox update)
 
(LinkTitles.)
Linia 16: Linia 16:




'''Hurtownia danych''' jest to scentralizowana, nietransakcyjna [[baza danych]], przeznaczona do przechowywania [[informacja|informacji]] globalnie w skali instytucji w długim horyzoncie czasowym, w wielowymiarowych układach analitycznych i ukierunkowana na wyszukiwanie informacji bezpośrednio przez jej użytkowników.  
'''[[Hurtownia]] danych''' jest to scentralizowana, nietransakcyjna [[baza danych]], przeznaczona do przechowywania [[informacja|informacji]] globalnie w skali instytucji w długim horyzoncie czasowym, w wielowymiarowych układach analitycznych i ukierunkowana na wyszukiwanie informacji bezpośrednio przez jej użytkowników.  
Podstawowymi cechami hurtowni danych jest: uporządkowanie tematyczne różnych obszarów analitycznych, integracja danych z różnych systemów baz danych, trwałość zapisanych i przechowywanych danych, uwzględnienie wymiaru czasowego.
Podstawowymi cechami hurtowni danych jest: uporządkowanie tematyczne różnych obszarów analitycznych, integracja danych z różnych systemów baz danych, trwałość zapisanych i przechowywanych danych, uwzględnienie wymiaru czasowego.


Linia 24: Linia 24:
[[Dane]] gromadzone dla celów [[podejmowanie decyzji|podejmowania decyzji]] w bazie danych mierzone są w trzech wymiarach: głębokość odnosi się do liczby danych sumarycznych - zagregowanych, szerokość danych odnosi się do dostępności danych w odniesieniu do liczby wymiarów i atrybutów, które mogą być analizowane przez [[użytkownik]]a, szczegółowość danych ("atomowość") określa liczbę wystąpień - ziarnistość danych.  
[[Dane]] gromadzone dla celów [[podejmowanie decyzji|podejmowania decyzji]] w bazie danych mierzone są w trzech wymiarach: głębokość odnosi się do liczby danych sumarycznych - zagregowanych, szerokość danych odnosi się do dostępności danych w odniesieniu do liczby wymiarów i atrybutów, które mogą być analizowane przez [[użytkownik]]a, szczegółowość danych ("atomowość") określa liczbę wystąpień - ziarnistość danych.  


Dane w hurtowni danych zazwyczaj są statyczne i głównie przeznaczone do odczytu. Ze względu na to, iż dane reprezentują pewien przedział czasowy, nie mogą być aktualizowane i nie ma zwykle możliwości ich zmiany. Dane są uaktualniane jedynie w swoich systemach źródłowych i następnie dostarczane do hurtowni z odpowiednim stemplem czasowym. Jedyne operacje wykonywane na tym etapie, to wprowadzanie i [[agregacja|agregacja danych]] podczas procesu ładowania, a następnie selekcja nowych danych w zapytaniach.  
Dane w hurtowni danych zazwyczaj są statyczne i głównie przeznaczone do odczytu. Ze względu na to, iż dane reprezentują pewien przedział czasowy, nie mogą być aktualizowane i nie ma zwykle możliwości ich zmiany. Dane są uaktualniane jedynie w swoich systemach źródłowych i następnie dostarczane do hurtowni z odpowiednim stemplem czasowym. Jedyne operacje wykonywane na tym etapie, to wprowadzanie i [[agregacja|agregacja danych]] podczas procesu ładowania, a następnie [[selekcja]] nowych danych w zapytaniach.  
W hurtowni danych wyróżniamy cztery główne kategorie danych. Stanowią je fakty, dane zagregowane, wymiary i [[metadane]].
W hurtowni danych wyróżniamy cztery główne kategorie danych. Stanowią je fakty, dane zagregowane, wymiary i [[metadane]].
Fakty to najistotniejszy obszar w hurtowni danych, ponieważ są one podstawą do dokonania bezpośrednio różnorakich analiz. Mogą one osiągać bardzo dużą objętość, nawet do rzędu terabajtów, jeśli zawierają dużą liczbę danych historycznych niezbędnych do analiz.(M. Nycz 2012, s. 12)
Fakty to najistotniejszy obszar w hurtowni danych, ponieważ są one podstawą do dokonania bezpośrednio różnorakich analiz. Mogą one osiągać bardzo dużą objętość, nawet do rzędu terabajtów, jeśli zawierają dużą liczbę danych historycznych niezbędnych do analiz.(M. Nycz 2012, s. 12)
Linia 31: Linia 31:
   
   
==Hurtownia danych a systemy źródłowe==
==Hurtownia danych a systemy źródłowe==
[[System operacyjny|Systemy operacyjne]], transakcyjne, obsługujące dane źródłowe dla hurtowni, są określane jako OLTP (''online trans action processing''). Aplikacje te, najczęściej typu klient/serwer, zapewniają użytkownikowi bezpośredni dostęp do danych, na których inicjuje przeprowadzenie transakcji.
[[System operacyjny|Systemy operacyjne]], transakcyjne, obsługujące dane źródłowe dla hurtowni, są określane jako OLTP (''online trans action processing''). Aplikacje te, najczęściej typu [[klient]]/serwer, zapewniają użytkownikowi bezpośredni dostęp do danych, na których inicjuje przeprowadzenie transakcji.
Opozycję stanowią hurtownie danych, w których informacja raz wprowadzona jest niezmienna. Fundamentalną zasadą jest to, że dane z hurtowni nigdy nie są usuwane, a wszelkie aktualizacje są normalnie obsługiwane off-line hurtowni danych.
Opozycję stanowią hurtownie danych, w których [[informacja]] raz wprowadzona jest niezmienna. Fundamentalną zasadą jest to, że dane z hurtowni nigdy nie są usuwane, a wszelkie aktualizacje są normalnie obsługiwane off-line hurtowni danych.
Rozwiązania transakcyjne mają na celu szybkie przeprocesowanie prostych operacji, lecz nie mają zdolności do obsługi przekrojowych, złożonych zapytań, uwzględniających m.in. dane historyczne. Zatem hurtownia danych stanowi najlepsze rozwiązanie do przygotowywania raportów oraz analiz szczebla strategicznego. (D. Dymek, W. Komnata, L. Kotulski, P. Szwed 2015, s. 22-23)
Rozwiązania transakcyjne mają na celu szybkie przeprocesowanie prostych operacji, lecz nie mają [[zdolności]] do obsługi przekrojowych, złożonych zapytań, uwzględniających m.in. dane historyczne. Zatem hurtownia danych stanowi najlepsze rozwiązanie do przygotowywania raportów oraz analiz szczebla strategicznego. (D. Dymek, W. Komnata, L. Kotulski, P. Szwed 2015, s. 22-23)
==Zadania hurtowni danych==
==Zadania hurtowni danych==
Generalnym zadaniem hurtowni danych jest ujęcie w postaci ujednoliconej istotnych w skali [[firma|firmy]] (krytycznych) informacji [[gospodarka|gospodarczych]] oraz udostępnienie ich do [[potrzeba|potrzeb]] analizy zagadnień decyzyjnych, odpowiedzi na zapytania i raportowania.
Generalnym zadaniem hurtowni danych jest ujęcie w postaci ujednoliconej istotnych w skali [[firma|firmy]] (krytycznych) informacji [[gospodarka|gospodarczych]] oraz udostępnienie ich do [[potrzeba|potrzeb]] analizy zagadnień decyzyjnych, odpowiedzi na zapytania i raportowania.
Linia 44: Linia 44:
# rosnące żądania użytkowników,
# rosnące żądania użytkowników,
# homogenizacja danych,
# homogenizacja danych,
# wysokie zapotrzebowanie na zasoby,
# wysokie [[zapotrzebowanie]] na [[zasoby]],
# własność danych,
# [[własność]] danych,
# wysokie koszty serwisu,
# wysokie [[koszty]] serwisu,
# długi czas trwania projektu,
# długi czas trwania projektu,
# złożoność integracyjna.
# [[złożoność]] integracyjna.


==Rola w podejmowaniu decyzji==
==Rola w podejmowaniu decyzji==
Linia 62: Linia 62:
:* Connoly T., Begg C., (2015) ''Database Systems, A Practical Approach to Design'', Addison Wesley, imprint Person Education, London
:* Connoly T., Begg C., (2015) ''Database Systems, A Practical Approach to Design'', Addison Wesley, imprint Person Education, London
:* Dymek D., Komnata W., Kotulski L., Szwed P., (2015) ''Architektury hurtowni danych'', Wydawnictwa AGH, Kraków
:* Dymek D., Komnata W., Kotulski L., Szwed P., (2015) ''Architektury hurtowni danych'', Wydawnictwa AGH, Kraków
:* Gorawski M., (2000) ''Hurtownia danych'', "Informatyka ", nr 3
:* Gorawski M., (2000) ''Hurtownia danych'', "[[Informatyka]] ", nr 3
:* Kopczewski M., (2014) [http://www.tstefaniuk.uph.edu.pl/zeszyty/archiwalne/100-2014_1.pdf''Hurtownie danych narzędziem wspomagającym procesy decyzyjne w zarządzaniu''], Zeszyty naukowe Uniwersytetu Przyrodniczo-Humanistycznego w Siedlcach, WSB Poznań, nr 100
:* Kopczewski M., (2014) [http://www.tstefaniuk.uph.edu.pl/zeszyty/archiwalne/100-2014_1.pdf''Hurtownie danych narzędziem wspomagającym procesy decyzyjne w zarządzaniu''], Zeszyty naukowe Uniwersytetu Przyrodniczo-Humanistycznego w Siedlcach, WSB Poznań, nr 100
:* Morzy M., (2004) [http://www.cs.put.poznan.pl/mmorzy/papers/cpi04.pdf''Aktywne hurtownie danych''], Instytut Informatyki Politechniki Poznańskiej, Poznań  
:* Morzy M., (2004) [http://www.cs.put.poznan.pl/mmorzy/papers/cpi04.pdf''Aktywne hurtownie danych''], Instytut Informatyki Politechniki Poznańskiej, Poznań  
:* Nycz M., (2012) ''Hurtownie danych i business intelligence w organizacji'', Uniwersytet Ekonomiczny we Wrocławiu, Wrocław
:* Nycz M., (2012) ''Hurtownie danych i [[business intelligence]] w organizacji'', Uniwersytet Ekonomiczny we Wrocławiu, Wrocław
:* Woźniak K., (2005) ''System informacji [[menadżer|menedżerskiej]] jako instrument [[zarządzanie strategiczne|zarządzania strategicznego]] w firmie'', praca doktorska, Akademia [[ekonomia|Ekonomiczna]] w Krakowie, Kraków
:* Woźniak K., (2005) ''System informacji [[menadżer|menedżerskiej]] jako instrument [[zarządzanie strategiczne|zarządzania strategicznego]] w firmie'', [[praca]] doktorska, Akademia [[ekonomia|Ekonomiczna]] w Krakowie, Kraków


{{a|Krzysztof Woźniak, Karolina Kulig}}
{{a|Krzysztof Woźniak, Karolina Kulig}}
[[Kategoria:Systemy informatyczne]]
[[Kategoria:Systemy informatyczne]]
<!--[[en:Data Warehouse]]-->
<!--[[en:Data Warehouse]]-->

Wersja z 22:13, 19 maj 2020

Hurtownia danych
Polecane artykuły


Hurtownia danych jest to scentralizowana, nietransakcyjna baza danych, przeznaczona do przechowywania informacji globalnie w skali instytucji w długim horyzoncie czasowym, w wielowymiarowych układach analitycznych i ukierunkowana na wyszukiwanie informacji bezpośrednio przez jej użytkowników. Podstawowymi cechami hurtowni danych jest: uporządkowanie tematyczne różnych obszarów analitycznych, integracja danych z różnych systemów baz danych, trwałość zapisanych i przechowywanych danych, uwzględnienie wymiaru czasowego.

Hurtownia danych jest dynamiczną infrastrukturą, która łączy bazy danych, oprogramowanie i sprzęt w zintegrowaną całość, zmieniającą się wraz z rozwojem przedsiębiorstwa. Konstrukcja hurtowni danych składa się z trzech obszarów: jądra systemu, perspektywy operacyjnej oraz perspektywy menadżerskiej. (M. Nycz, 2012, s. 11)

Cechy danych

Dane gromadzone dla celów podejmowania decyzji w bazie danych mierzone są w trzech wymiarach: głębokość odnosi się do liczby danych sumarycznych - zagregowanych, szerokość danych odnosi się do dostępności danych w odniesieniu do liczby wymiarów i atrybutów, które mogą być analizowane przez użytkownika, szczegółowość danych ("atomowość") określa liczbę wystąpień - ziarnistość danych.

Dane w hurtowni danych zazwyczaj są statyczne i głównie przeznaczone do odczytu. Ze względu na to, iż dane reprezentują pewien przedział czasowy, nie mogą być aktualizowane i nie ma zwykle możliwości ich zmiany. Dane są uaktualniane jedynie w swoich systemach źródłowych i następnie dostarczane do hurtowni z odpowiednim stemplem czasowym. Jedyne operacje wykonywane na tym etapie, to wprowadzanie i agregacja danych podczas procesu ładowania, a następnie selekcja nowych danych w zapytaniach. W hurtowni danych wyróżniamy cztery główne kategorie danych. Stanowią je fakty, dane zagregowane, wymiary i metadane. Fakty to najistotniejszy obszar w hurtowni danych, ponieważ są one podstawą do dokonania bezpośrednio różnorakich analiz. Mogą one osiągać bardzo dużą objętość, nawet do rzędu terabajtów, jeśli zawierają dużą liczbę danych historycznych niezbędnych do analiz.(M. Nycz 2012, s. 12)

Hurtownia danych a systemy źródłowe

Systemy operacyjne, transakcyjne, obsługujące dane źródłowe dla hurtowni, są określane jako OLTP (online trans action processing). Aplikacje te, najczęściej typu klient/serwer, zapewniają użytkownikowi bezpośredni dostęp do danych, na których inicjuje przeprowadzenie transakcji. Opozycję stanowią hurtownie danych, w których informacja raz wprowadzona jest niezmienna. Fundamentalną zasadą jest to, że dane z hurtowni nigdy nie są usuwane, a wszelkie aktualizacje są normalnie obsługiwane off-line hurtowni danych. Rozwiązania transakcyjne mają na celu szybkie przeprocesowanie prostych operacji, lecz nie mają zdolności do obsługi przekrojowych, złożonych zapytań, uwzględniających m.in. dane historyczne. Zatem hurtownia danych stanowi najlepsze rozwiązanie do przygotowywania raportów oraz analiz szczebla strategicznego. (D. Dymek, W. Komnata, L. Kotulski, P. Szwed 2015, s. 22-23)

Zadania hurtowni danych

Generalnym zadaniem hurtowni danych jest ujęcie w postaci ujednoliconej istotnych w skali firmy (krytycznych) informacji gospodarczych oraz udostępnienie ich do potrzeb analizy zagadnień decyzyjnych, odpowiedzi na zapytania i raportowania.

Problemy hurtowni danych

Budowie i zarządzaniu hurtownią danych mogą towarzyszyć pewne problemy, których poznanie powinno pomóc lepiej projektować, a także unikać ich w procesie realizacji. Thomas Connolly i Carolyn Begg zgromadzili dziesięć aspektów problemów hurtowni danych (T. Connoly, C. Begg, 2005):

  1. nieprecyzyjne oszacowanie zasobów do ładowania danych,
  2. niejawne problemy z systemami źródłowymi,
  3. brak pozyskania wymaganych danych,
  4. rosnące żądania użytkowników,
  5. homogenizacja danych,
  6. wysokie zapotrzebowanie na zasoby,
  7. własność danych,
  8. wysokie koszty serwisu,
  9. długi czas trwania projektu,
  10. złożoność integracyjna.

Rola w podejmowaniu decyzji

Zasadniczą zasadą, na której opiera się koncepcja hurtowni danych jest umożliwienie łatwego dostępu do danych z różnych istniejących i pozostających nadal w użyciu baz (różnych operacyjnych, transakcyjnych systemów informatycznych), poprzez jedną wielowymiarową bazę danych. Dane w hurtowni nie są uaktualniane w czasie rzeczywistym (na bieżąco) jak w bazach transakcyjnych (operacyjnych), lecz okresowo (Gorawski M., 2000, s. 30-33). Systemy DSS oraz EIS mogą czytać dane wprost z hurtowni lub dane mogą być kopiowane do innych mniejszych, tematycznych hurtowni danych (ang. Data Mart).

Środowisko hurtowni danych jest z założenia nadmiarowe. Wiele systemów baz danych dla obsługi przedsiębiorstwa i systemów archiwalnych umieszcza dane we wspólnej bazie, która z kolei może być powielona w jednej lub kilku hurtowniach tematycznych. Sposób ekstrakcji danych z systemów produkcyjnych do hurtowni danych powinien być opisany przez odpowiednie procedury zgodne z charakterem danych i potrzebami analitycznymi użytkowników.

Poziom decyzji podejmowanych w oparciu o systemy DSS oraz EIS zazwyczaj nie wymaga uaktualniania danych z dokładnością do minut. Dane w Data Mart i Data Warehouse nie są w pełni zsynchronizowane z danymi w systemach produkcji, sprzedaży i w systemach marketingowych, lecz są uaktualniane w pewnych odstępach czasu. Fakt ten pozwala na przechowywanie danych w hurtowni w sposób nadmiarowy, pozwalając skrócić czas niezbędny do uzyskania odpowiedzi systemu i rozwiązania zadań analitycznych.

Bibliografia

Autor: Krzysztof Woźniak, Karolina Kulig