Hurtownia danych

Wersja z dnia 16:32, 8 sty 2019 autorstwa Sw (dyskusja | edycje) (Infobox update)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Hurtownia danych
Polecane artykuły


Hurtownia danych jest to scentralizowana, nietransakcyjna baza danych, przeznaczona do przechowywania informacji globalnie w skali instytucji w długim horyzoncie czasowym, w wielowymiarowych układach analitycznych i ukierunkowana na wyszukiwanie informacji bezpośrednio przez jej użytkowników. Podstawowymi cechami hurtowni danych jest: uporządkowanie tematyczne różnych obszarów analitycznych, integracja danych z różnych systemów baz danych, trwałość zapisanych i przechowywanych danych, uwzględnienie wymiaru czasowego.

Hurtownia danych jest dynamiczną infrastrukturą, która łączy bazy danych, oprogramowanie i sprzęt w zintegrowaną całość, zmieniającą się wraz z rozwojem przedsiębiorstwa. Konstrukcja hurtowni danych składa się z trzech obszarów: jądra systemu, perspektywy operacyjnej oraz perspektywy menadżerskiej. (M. Nycz, 2012, s. 11)

Cechy danych

Dane gromadzone dla celów podejmowania decyzji w bazie danych mierzone są w trzech wymiarach: głębokość odnosi się do liczby danych sumarycznych - zagregowanych, szerokość danych odnosi się do dostępności danych w odniesieniu do liczby wymiarów i atrybutów, które mogą być analizowane przez użytkownika, szczegółowość danych ("atomowość") określa liczbę wystąpień - ziarnistość danych.

Dane w hurtowni danych zazwyczaj są statyczne i głównie przeznaczone do odczytu. Ze względu na to, iż dane reprezentują pewien przedział czasowy, nie mogą być aktualizowane i nie ma zwykle możliwości ich zmiany. Dane są uaktualniane jedynie w swoich systemach źródłowych i następnie dostarczane do hurtowni z odpowiednim stemplem czasowym. Jedyne operacje wykonywane na tym etapie, to wprowadzanie i agregacja danych podczas procesu ładowania, a następnie selekcja nowych danych w zapytaniach. W hurtowni danych wyróżniamy cztery główne kategorie danych. Stanowią je fakty, dane zagregowane, wymiary i metadane. Fakty to najistotniejszy obszar w hurtowni danych, ponieważ są one podstawą do dokonania bezpośrednio różnorakich analiz. Mogą one osiągać bardzo dużą objętość, nawet do rzędu terabajtów, jeśli zawierają dużą liczbę danych historycznych niezbędnych do analiz.(M. Nycz 2012, s. 12)

Hurtownia danych a systemy źródłowe

Systemy operacyjne, transakcyjne, obsługujące dane źródłowe dla hurtowni, są określane jako OLTP (online trans action processing). Aplikacje te, najczęściej typu klient/serwer, zapewniają użytkownikowi bezpośredni dostęp do danych, na których inicjuje przeprowadzenie transakcji. Opozycję stanowią hurtownie danych, w których informacja raz wprowadzona jest niezmienna. Fundamentalną zasadą jest to, że dane z hurtowni nigdy nie są usuwane, a wszelkie aktualizacje są normalnie obsługiwane off-line hurtowni danych. Rozwiązania transakcyjne mają na celu szybkie przeprocesowanie prostych operacji, lecz nie mają zdolności do obsługi przekrojowych, złożonych zapytań, uwzględniających m.in. dane historyczne. Zatem hurtownia danych stanowi najlepsze rozwiązanie do przygotowywania raportów oraz analiz szczebla strategicznego. (D. Dymek, W. Komnata, L. Kotulski, P. Szwed 2015, s. 22-23)

Zadania hurtowni danych

Generalnym zadaniem hurtowni danych jest ujęcie w postaci ujednoliconej istotnych w skali firmy (krytycznych) informacji gospodarczych oraz udostępnienie ich do potrzeb analizy zagadnień decyzyjnych, odpowiedzi na zapytania i raportowania.

Problemy hurtowni danych

Budowie i zarządzaniu hurtownią danych mogą towarzyszyć pewne problemy, których poznanie powinno pomóc lepiej projektować, a także unikać ich w procesie realizacji. Thomas Connolly i Carolyn Begg zgromadzili dziesięć aspektów problemów hurtowni danych (T. Connoly, C. Begg, 2005):

  1. nieprecyzyjne oszacowanie zasobów do ładowania danych,
  2. niejawne problemy z systemami źródłowymi,
  3. brak pozyskania wymaganych danych,
  4. rosnące żądania użytkowników,
  5. homogenizacja danych,
  6. wysokie zapotrzebowanie na zasoby,
  7. własność danych,
  8. wysokie koszty serwisu,
  9. długi czas trwania projektu,
  10. złożoność integracyjna.

Rola w podejmowaniu decyzji

Zasadniczą zasadą, na której opiera się koncepcja hurtowni danych jest umożliwienie łatwego dostępu do danych z różnych istniejących i pozostających nadal w użyciu baz (różnych operacyjnych, transakcyjnych systemów informatycznych), poprzez jedną wielowymiarową bazę danych. Dane w hurtowni nie są uaktualniane w czasie rzeczywistym (na bieżąco) jak w bazach transakcyjnych (operacyjnych), lecz okresowo (Gorawski M., 2000, s. 30-33). Systemy DSS oraz EIS mogą czytać dane wprost z hurtowni lub dane mogą być kopiowane do innych mniejszych, tematycznych hurtowni danych (ang. Data Mart).

Środowisko hurtowni danych jest z założenia nadmiarowe. Wiele systemów baz danych dla obsługi przedsiębiorstwa i systemów archiwalnych umieszcza dane we wspólnej bazie, która z kolei może być powielona w jednej lub kilku hurtowniach tematycznych. Sposób ekstrakcji danych z systemów produkcyjnych do hurtowni danych powinien być opisany przez odpowiednie procedury zgodne z charakterem danych i potrzebami analitycznymi użytkowników.

Poziom decyzji podejmowanych w oparciu o systemy DSS oraz EIS zazwyczaj nie wymaga uaktualniania danych z dokładnością do minut. Dane w Data Mart i Data Warehouse nie są w pełni zsynchronizowane z danymi w systemach produkcji, sprzedaży i w systemach marketingowych, lecz są uaktualniane w pewnych odstępach czasu. Fakt ten pozwala na przechowywanie danych w hurtowni w sposób nadmiarowy, pozwalając skrócić czas niezbędny do uzyskania odpowiedzi systemu i rozwiązania zadań analitycznych.

Bibliografia

  • Connoly T., Begg C., (2015) Database Systems, A Practical Approach to Design, Addison Wesley, imprint Person Education, London
  • Dymek D., Komnata W., Kotulski L., Szwed P., (2015) Architektury hurtowni danych, Wydawnictwa AGH, Kraków
  • Gorawski M., (2000) Hurtownia danych, "Informatyka ", nr 3
  • Kopczewski M., (2014) Hurtownie danych narzędziem wspomagającym procesy decyzyjne w zarządzaniu, Zeszyty naukowe Uniwersytetu Przyrodniczo-Humanistycznego w Siedlcach, WSB Poznań, nr 100
  • Morzy M., (2004) Aktywne hurtownie danych, Instytut Informatyki Politechniki Poznańskiej, Poznań
  • Nycz M., (2012) Hurtownie danych i business intelligence w organizacji, Uniwersytet Ekonomiczny we Wrocławiu, Wrocław
  • Woźniak K., (2005) System informacji menedżerskiej jako instrument zarządzania strategicznego w firmie, praca doktorska, Akademia Ekonomiczna w Krakowie, Kraków

Autor: Krzysztof Woźniak, Karolina Kulig