Big data

Big data
Polecane artykuły

Big Data – zbiór danych o dużej objętości, różnorodności, złożoności i zmienności, w którym dane napływają w sposób strumieniowy w czasie rzeczywistym. Wydobycie z nich nowej wiedzy wymaga zastosowania innowacyjnych metod i technologii (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142).

Inne definicje Big Data

Przez lata w literaturze pojawiło się kilka definicji Big Data, które dotykają różnych aspektów tego zagadnienia. Według najpopularniejszych z nich, Big Data można określić jako (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142):

  • duże dane, które wymagają maksymalizacji w celu przeprowadzenia wartościowej analizy [M. Cox i D. Ellsworth, 1997],
  • zbiory danych, których złożoność i rozmiar nie pozwalają na zarządzanie nimi za pomocą aktualnie znanych narzędzi [Fan i Bitef, 2012],
  • dane pochodzące z różnych źródeł, charakteryzujące się dużym i szybkim napływem [IBM, 2013].

Struktura Big Data (3V)

Aby zbiór danych mógł posłużyć do zbadania korelacji pomiędzy poszczególnymi danymi i być źródłem rzetelnych wniosków, zbiór ten musi spełniać trzy warunki. Można je określić jako 3V (G. Błażejewicz 2016, s. 21):

  • ilość (volume) – zbiór musi zawierać wystarczająco dużo danych, aby wykazane prawidłowości można uznać za istotne,
  • zmienność w czasie (velocity) – dane muszą być odzwierciedleniem zmian w czasie i pozwalać na pracę w czasie rzeczywistym,
  • zróżnicowanie (variety)– aby prawidłowo osadzić dane w kontekście, muszą być one odpowiednio zróżnicowane.

Do tych podstawowych 3 charakterystyk, można dodać także dodatkowe dwa atrybuty (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142-143):

  • zmienność (variabilty) – dane napływają z różną prędkością w zależności od okresowych trendów czy szczytów gospodarczych lub politycznych,
  • złożoność (complexity) – dane można podzielić na strukturalne, np. numery pesel, o mieszanej strukturze, np. adresy e-mail, oraz na dane niestrukturalne, np. pliki wideo.

Źródła Big Data

Jedną z charakterystyk Big Data jest różnorodność – oznacza to, że dane mogą pochodzić z różnych źródeł i być przedstawiane w rozmaitej formie. Do źródeł pochodzenia tych danych zalicza się (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 143):

  • wewnętrzne dane organizacji, np. dane księgowe,
  • dane pozyskane z zewnątrz, np. informacje zamieszczane w mediach społecznościowych,
  • dane z transakcji, np. uzyskane od instytucji finansowych,
  • dane pozyskane od placówek służb zdrowia,
  • Deep Web Data, czyli dane pochodzące z Internetu, nieindeksowane przez większość wyszukiwarek,
  • dane z wykresów odznaczające się dużą liczbą węzłów informacyjnych.

Big Data a tradycyjne metody przetwarzania danych

Różnice pomiędzy Big Data i tradycyjnym przetwarzaniem danych (M. Smolarek i in. 2016, s. 71):

  • przewaga niestrukturyzowanych danych w przeciwieństwie do sztywnych reguł strukturyzacji danych w tradycyjnym procesie analizy,
  • szybsze i łatwiejsze gromadzenie danych za pomocą nowych technologii, co było niemożliwe do wykonania za pomocą strukturalizowanych repozytoriów,
  • poszerzenie baz danych o dane pochodzące z innych źródeł, niż wewnętrzna bazy danych organizacji,
  • wykorzystanie w analizie danych strumieniowych,
  • wprowadzenie metod przetwarzania zdarzeń.

Ograniczenia Big Data

Wykorzystanie Big Data, ze względu na objętość i złożoność danych niesie za sobą pewne ograniczenia (M. Czajkowska i in. 2015, s. 29-30):

  • wysokie koszty związane z przechowywaniem danych i zapewnieniem bezpieczeństwa informacji,
  • trudna transformacja danych (tzw. czyszczenie danych) – szczególnie przy danych pozyskiwanych z różnych źródeł,
  • problemy metodologiczne spowodowane m.in. koniecznością zastosowania nowoczesnych algorytmów uczenia maszynowego.

Technologie Big Data

Dane Big Data powinny być poddawane analizie w czasie rzeczywistym, dlatego powstają nowe rozwiązania pozwalające na dokonywanie analizy danych podczas procesu ich generowania, co nie wymaga wprowadzania ich do baz danych.

  • NoSQL

Bazy danych NoNSQ dają możliwość gromadzenia i przetwarzania danych niestrukturalnych, ich wadami są jednak: mniejsza dokładność danych i brak sformalizowania, co przekłada się na bardziej skomplikowany język zapytań.

  • MapReduce

Model programowania MapReduce pozwala na podział problemu na etap mapowania i redukcji. Polega na przetwarzaniu danych bezpośrednio w miejscu ich przechowywania. Rozwiązanie to zaoszczędza czas, który musiałby być przeznaczony na przesył danych, a sposób jego opracowania sprawia, że jest odporny na awarie maszyn.

  • Apache Hadoop

Apache Hadoop to oprogramowanie, dzięki któremu możliwe jest przetwarzanie danych w klastrach komputerów przy wykorzystaniu prostych modeli programowania. Tego typu biblioteki danych są odporne na uszkodzenia i pozwalają na obsługę uszkodzeń w warstwie aplikacji (K. Racka 2016, s. 319-320).

Bibliografia

  • Błażejewicz G. (2016), Rewolucja z Marketing Automation. Jak wykorzystać potencjał Big Data, Wydawnictwo Naukowe PWN , Warszawa
  • Czajowska M., Malarski M. (red.) (2015), Funkcjonowanie e-biznesu. Zasoby, procesy, technologie, Wydawnictwo Uniwersytetu Łódzkiego, Łódź
  • Mach-Król M. (2015), Analiza i strategia big data w organizacjach, Studies & Proceedings of Polish Association for Knowledge Management, nr 74
  • Racka K. (2016) Big data – znaczenie, zastosowania i rozwiązania technologiczne, Zeszyty Naukowe PWSZ w Płocku, Nauki Ekonomiczne, t. XXIII
  • Smolarek M. (red.) (2016), Technologie informatyczne w zarządzaniu kapitałem ludzkim w organizacji, Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach, Katowice
  • Tabakow M., Korczak J., Franczyk B. (2014), Big Data – definicje, wyzwania i technologie informatyczne, Business Informatics, nr 1
  • Woźniczka J. (2018), Big data w marketingu: szanse i zagrożenia, Studia Oeconomica Posnaniensia, nr 6

Autor: Paulina Struś