Big data: Różnice pomiędzy wersjami

Aktualna wersja na dzień 22:45, 9 gru 2023

Big Data - zbiór danych o dużej objętości, różnorodności, złożoności i zmienności, w którym dane napływają w sposób strumieniowy w czasie rzeczywistym. Wydobycie z nich nowej wiedzy wymaga zastosowania innowacyjnych metod i technologii (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142).

TL;DR

Big Data to duże, różnorodne i zmienne zbiory danych, które wymagają innowacyjnych metod i technologii do ich przetwarzania. Dane te pochodzą z różnych źródeł i są gromadzone w czasie rzeczywistym. Istnieją różnice pomiędzy Big Data a tradycyjnym przetwarzaniem danych, a wykorzystanie Big Data niesie za sobą pewne ograniczenia. Technologie takie jak NoSQL, MapReduce i Apache Hadoop pozwalają na analizę i przetwarzanie danych Big Data w czasie rzeczywistym.

Inne definicje Big Data

Przez lata w literaturze pojawiło się kilka definicji Big Data, które dotykają różnych aspektów tego zagadnienia. Według najpopularniejszych z nich, Big Data można określić jako (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142):

duże dane, które wymagają maksymalizacji w celu przeprowadzenia wartościowej analizy [M. Cox i D. Ellsworth, 1997],
zbiory danych, których złożoność i rozmiar nie pozwalają na zarządzanie nimi za pomocą aktualnie znanych narzędzi [Fan i Bitef, 2012],
dane pochodzące z różnych źródeł, charakteryzujące się dużym i szybkim napływem [IBM, 2013].

Struktura Big Data (3V)

Aby zbiór danych mógł posłużyć do zbadania korelacji pomiędzy poszczególnymi danymi i być źródłem rzetelnych wniosków, zbiór ten musi spełniać trzy warunki. Można je określić jako 3V (G. Błażejewicz 2016, s. 21):

ilość (volume) - zbiór musi zawierać wystarczająco dużo danych, aby wykazane prawidłowości można uznać za istotne,
zmienność w czasie (velocity) - dane muszą być odzwierciedleniem zmian w czasie i pozwalać na pracę w czasie rzeczywistym,
zróżnicowanie (variety) - aby prawidłowo osadzić dane w kontekście, muszą być one odpowiednio zróżnicowane.

Do tych podstawowych 3 charakterystyk, można dodać także dodatkowe dwa atrybuty (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142-143):

zmienność (variabilty) - dane napływają z różną prędkością w zależności od okresowych trendów czy szczytów gospodarczych lub politycznych,
złożoność (complexity) - dane można podzielić na strukturalne, np. numery pesel, o mieszanej strukturze, np. adresy e-mail, oraz na dane niestrukturalne, np. pliki wideo.

Źródła Big Data

Jedną z charakterystyk Big Data jest różnorodność - oznacza to, że dane mogą pochodzić z różnych źródeł i być przedstawiane w rozmaitej formie. Do źródeł pochodzenia tych danych zalicza się (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 143):

wewnętrzne dane organizacji, np. dane księgowe,
dane pozyskane z zewnątrz, np. informacje zamieszczane w mediach społecznościowych,
dane z transakcji, np. uzyskane od instytucji finansowych,
dane pozyskane od placówek służb zdrowia,
Deep Web Data, czyli dane pochodzące z Internetu, nieindeksowane przez większość wyszukiwarek,
dane z wykresów odznaczające się dużą liczbą węzłów informacyjnych.

Big Data a tradycyjne metody przetwarzania danych

Różnice pomiędzy Big Data i tradycyjnym przetwarzaniem danych (M. Smolarek i in. 2016, s. 71):

przewaga niestrukturyzowanych danych w przeciwieństwie do sztywnych reguł strukturyzacji danych w tradycyjnym procesie analizy,
szybsze i łatwiejsze gromadzenie danych za pomocą nowych technologii, co było niemożliwe do wykonania za pomocą strukturalizowanych repozytoriów,
poszerzenie baz danych o dane pochodzące z innych źródeł, niż wewnętrzna bazy danych organizacji,
wykorzystanie w analizie danych strumieniowych,
wprowadzenie metod przetwarzania zdarzeń.

Ograniczenia Big Data

Wykorzystanie Big Data, ze względu na objętość i złożoność danych niesie za sobą pewne ograniczenia (M. Czajkowska i in. 2015, s. 29-30):

wysokie koszty związane z przechowywaniem danych i zapewnieniem bezpieczeństwa informacji,
trudna transformacja danych (tzw. czyszczenie danych) - szczególnie przy danych pozyskiwanych z różnych źródeł,
problemy metodologiczne spowodowane m.in. koniecznością zastosowania nowoczesnych algorytmów uczenia maszynowego.

Technologie Big Data

Dane Big Data powinny być poddawane analizie w czasie rzeczywistym, dlatego powstają nowe rozwiązania pozwalające na dokonywanie analizy danych podczas procesu ich generowania, co nie wymaga wprowadzania ich do baz danych.

NoSQL

Bazy danych NoNSQ dają możliwość gromadzenia i przetwarzania danych niestrukturalnych, ich wadami są jednak: mniejsza dokładność danych i brak sformalizowania, co przekłada się na bardziej skomplikowany język zapytań.

MapReduce

Model programowania MapReduce pozwala na podział problemu na etap mapowania i redukcji. Polega na przetwarzaniu danych bezpośrednio w miejscu ich przechowywania. Rozwiązanie to zaoszczędza czas, który musiałby być przeznaczony na przesył danych, a sposób jego opracowania sprawia, że jest odporny na awarie maszyn.

Apache Hadoop

Apache Hadoop to oprogramowanie, dzięki któremu możliwe jest przetwarzanie danych w klastrach komputerów przy wykorzystaniu prostych modeli programowania. Tego typu biblioteki danych są odporne na uszkodzenia i pozwalają na obsługę uszkodzeń w warstwie aplikacji (K. Racka 2016, s. 319-320).

Big data — artykuły polecane
Systemy ekspertowe — Sztuczne sieci neuronowe — Systemy wspomagania decyzji — System ekspercki — Systemy OLAP — Java — Responsive design — Hurtownia danych — Inżynieria odwrotna

Bibliografia

Błażejewicz G. (2016), Rewolucja z Marketing Automation. Jak wykorzystać potencjał Big Data, Wydawnictwo Naukowe PWN, Warszawa
Czajowska M., Malarski M. (red.) (2015), Funkcjonowanie e-biznesu. Zasoby, procesy, technologie, Wydawnictwo Uniwersytetu Łódzkiego, Łódź
Mach-Król M. (2015), Analiza i strategia big data w organizacjach, Studies & Proceedings of Polish Association for Knowledge Management, nr 74
Racka K. (2016), Big data - znaczenie, zastosowania i rozwiązania technologiczne, Zeszyty Naukowe PWSZ w Płocku, Nauki Ekonomiczne, t. XXIII
Smolarek M. (red.) (2016), Technologie informatyczne w zarządzaniu kapitałem ludzkim w organizacji, Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach, Katowice
Tabakow M., Korczak J., Franczyk B. (2014), Big Data - definicje, wyzwania i technologie informatyczne, Business Informatics, nr 1
Woźniczka J. (2018), Big data w marketingu: szanse i zagrożenia, Studia Oeconomica Posnaniensia, nr 6

Autor: Paulina Struś

@@ Linia 1: / Linia 1: @@
-{{infobox4
+'''Big Data''' - zbiór danych o dużej objętości, różnorodności, złożoności i zmienności, w którym [[dane]] napływają w sposób strumieniowy w czasie rzeczywistym. Wydobycie z nich nowej wiedzy wymaga zastosowania innowacyjnych metod i technologii (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142).
-|list1=
-<ul>
+==TL;DR==
-<li>[[Systemy ekspertowe]]</li>
+Big Data to duże, różnorodne i zmienne zbiory danych, które wymagają innowacyjnych metod i technologii do ich przetwarzania. Dane te pochodzą z różnych źródeł i są gromadzone w czasie rzeczywistym. Istnieją różnice pomiędzy Big Data a tradycyjnym przetwarzaniem danych, a wykorzystanie Big Data niesie za sobą pewne ograniczenia. Technologie takie jak NoSQL, MapReduce i Apache Hadoop pozwalają na analizę i przetwarzanie danych Big Data w czasie rzeczywistym.
-<li>[[Sztuczne sieci neuronowe]]</li>
-<li>[[Systemy wspomagania decyzji]]</li>
-<li>[[System ekspercki]]</li>
-<li>[[Systemy OLAP]]</li>
-<li>[[Java]]</li>
-<li>[[Responsive design]]</li>
-<li>[[Hurtownia danych]]</li>
-<li>[[Inżynieria odwrotna]]</li>
-</ul>
-}}
-'''Big Data''' – zbiór danych o dużej objętości, różnorodności, złożoności i zmienności, w którym [[dane]] napływają w sposób strumieniowy w czasie rzeczywistym. Wydobycie z nich nowej wiedzy wymaga zastosowania innowacyjnych metod i technologii (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142).
 ==Inne definicje Big Data==
@@ Linia 19: / Linia 8: @@
 * duże dane, które wymagają maksymalizacji w celu przeprowadzenia wartościowej analizy [M. Cox i D. Ellsworth, 1997],
 * zbiory danych, których [[złożoność]] i rozmiar nie pozwalają na [[zarządzanie]] nimi za pomocą aktualnie znanych narzędzi [Fan i Bitef, 2012],
 * dane pochodzące z różnych źródeł, charakteryzujące się dużym i szybkim napływem [IBM, 2013].
 ==Struktura Big Data (3V)==
 Aby zbiór danych mógł posłużyć do zbadania korelacji pomiędzy poszczególnymi danymi i być źródłem rzetelnych wniosków, zbiór ten musi spełniać trzy warunki. Można je określić jako 3V (G. Błażejewicz 2016, s. 21):
-* '''ilość (volume)''' – zbiór musi zawierać wystarczająco dużo danych, aby wykazane prawidłowości można uznać za istotne,
+* '''ilość (volume)''' - zbiór musi zawierać wystarczająco dużo danych, aby wykazane prawidłowości można uznać za istotne,
-* '''zmienność w czasie ([[velocity]])''' – dane muszą być odzwierciedleniem zmian w czasie i pozwalać na pracę w czasie rzeczywistym,
+* '''zmienność w czasie ([[velocity]])''' - dane muszą być odzwierciedleniem zmian w czasie i pozwalać na pracę w czasie rzeczywistym,
-* '''zróżnicowanie (variety)'''– aby prawidłowo osadzić dane w kontekście, muszą być one odpowiednio zróżnicowane.
+* '''zróżnicowanie (variety)''' - aby prawidłowo osadzić dane w kontekście, muszą być one odpowiednio zróżnicowane.
-<google>t</google>
 Do tych podstawowych 3 charakterystyk, można dodać także dodatkowe dwa atrybuty (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142-143):
-* '''zmienność (variabilty)''' – dane napływają z różną prędkością w zależności od okresowych trendów czy szczytów gospodarczych lub politycznych,
+* '''zmienność (variabilty)''' - dane napływają z różną prędkością w zależności od okresowych trendów czy szczytów gospodarczych lub politycznych,
-* '''złożoność (complexity)''' – dane można podzielić na strukturalne, np. numery pesel, o mieszanej strukturze, np. adresy e-mail, oraz na dane niestrukturalne, np. pliki wideo.
+* '''złożoność (complexity)''' - dane można podzielić na strukturalne, np. numery pesel, o mieszanej strukturze, np. adresy e-mail, oraz na dane niestrukturalne, np. pliki wideo.
+<google>n</google>
 ==Źródła Big Data==
-Jedną z charakterystyk Big Data jest [[różnorodność]] – oznacza to, że dane mogą pochodzić z różnych źródeł i być przedstawiane w rozmaitej formie. Do źródeł pochodzenia tych danych zalicza się (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 143):
+Jedną z charakterystyk Big Data jest [[różnorodność]] - oznacza to, że dane mogą pochodzić z różnych źródeł i być przedstawiane w rozmaitej formie. Do źródeł pochodzenia tych danych zalicza się (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 143):
 * '''wewnętrzne dane''' organizacji, np. dane księgowe,
 * dane '''pozyskane z zewnątrz''', np. [[informacje]] zamieszczane w mediach społecznościowych,
@@ Linia 51: / Linia 41: @@
 Wykorzystanie Big Data, ze względu na objętość i złożoność danych niesie za sobą pewne ograniczenia (M. Czajkowska i in. 2015, s. 29-30):
 * '''wysokie [[koszty]]''' związane z przechowywaniem danych i zapewnieniem bezpieczeństwa informacji,
-* '''trudna [[transformacja]] danych''' (tzw. czyszczenie danych) – szczególnie przy danych pozyskiwanych z różnych źródeł,
+* '''trudna [[transformacja]] danych''' (tzw. czyszczenie danych) - szczególnie przy danych pozyskiwanych z różnych źródeł,
 * '''problemy metodologiczne''' spowodowane m.in. koniecznością zastosowania nowoczesnych algorytmów uczenia maszynowego.
-==Technologie Big Data ==
+==Technologie Big Data==
 Dane Big Data powinny być poddawane analizie w czasie rzeczywistym, dlatego powstają nowe rozwiązania pozwalające na dokonywanie analizy danych podczas procesu ich generowania, co nie wymaga wprowadzania ich do baz danych.
 * '''NoSQL'''
@@ Linia 62: / Linia 52: @@
 * '''Apache Hadoop'''
 Apache Hadoop to oprogramowanie, dzięki któremu możliwe jest [[przetwarzanie danych]] w klastrach komputerów przy wykorzystaniu prostych modeli programowania. Tego typu biblioteki danych są odporne na uszkodzenia i pozwalają na obsługę uszkodzeń w warstwie aplikacji (K. Racka 2016, s. 319-320).
+{{infobox5|list1={{i5link|a=[[Systemy ekspertowe]]}} &mdash; {{i5link|a=[[Sztuczne sieci neuronowe]]}} &mdash; {{i5link|a=[[Systemy wspomagania decyzji]]}} &mdash; {{i5link|a=[[System ekspercki]]}} &mdash; {{i5link|a=[[Systemy OLAP]]}} &mdash; {{i5link|a=[[Java]]}} &mdash; {{i5link|a=[[Responsive design]]}} &mdash; {{i5link|a=[[Hurtownia danych]]}} &mdash; {{i5link|a=[[Inżynieria odwrotna]]}} }}
 ==Bibliografia==
-* Błażejewicz G. (2016), ''Rewolucja z [[Marketing]] Automation. Jak wykorzystać [[potencjał]] Big Data'', Wydawnictwo Naukowe PWN , Warszawa
+<noautolinks>
-* Czajowska M., Malarski M. (red.) (2015), ''Funkcjonowanie e-biznesu. [[Zasoby]], procesy, technologie'', Wydawnictwo Uniwersytetu Łódzkiego, Łódź
+* Błażejewicz G. (2016), ''Rewolucja z Marketing Automation. Jak wykorzystać potencjał Big Data'', Wydawnictwo Naukowe PWN, Warszawa
-* Mach-Król M. (2015), [http://www.pszw.edu.pl/images/publikacje/t074_pszw_2015_mach-krol-analiza-i-strategia-big-data-w-organizacjach.pdf Analiza i strategia big data w organizacjach], ''Studies & Proceedings of Polish Association for Knowledge Management'', nr 74
+* Czajowska M., Malarski M. (red.) (2015), ''Funkcjonowanie e-biznesu. Zasoby, procesy, technologie'', Wydawnictwo Uniwersytetu Łódzkiego, Łódź
-* Racka K. (2016) [http://kb.pwszplock.pl/index.php/ne/article/viewFile/108/100 ''Big data – znaczenie, zastosowania i rozwiązania technologiczne''], ''Zeszyty Naukowe PWSZ w Płocku, Nauki Ekonomiczne'', t. XXIII
+* Mach-Król M. (2015), ''Analiza i strategia big data w organizacjach'', Studies & Proceedings of Polish Association for Knowledge Management, nr 74
+* Racka K. (2016), ''Big data - znaczenie, zastosowania i rozwiązania technologiczne'', Zeszyty Naukowe PWSZ w Płocku, Nauki Ekonomiczne, t. XXIII
 * Smolarek M. (red.) (2016), ''Technologie informatyczne w zarządzaniu kapitałem ludzkim w organizacji'', Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach, Katowice
-* Tabakow M., Korczak J., Franczyk B. (2014), ''Big Data – definicje, wyzwania i technologie informatyczne'', ''Business Informatics'', nr 1
+* Tabakow M., Korczak J., Franczyk B. (2014), ''Big Data - definicje, wyzwania i technologie informatyczne'', Business Informatics, nr 1
-* Woźniczka J. (2018), [https://www.researchgate.net/profile/Jaroslaw_Wozniczka/publication/328724148_Big_data_w_marketingu_Szanse_i_zagrozenia_Big_Data_in_Marketing_Opportunities_and_Threats/links/5bddd641299bf1124fb95fb4/Big-data-w-marketingu-Szanse-i-zagrozenia-Big-Data-in-Marketing-Opportunities-and-Threats.pdf ''Big data w marketingu: szanse i zagrożenia''], ''Studia Oeconomica Posnaniensia'', nr 6
+* Woźniczka J. (2018), ''Big data w marketingu: szanse i zagrożenia'', Studia Oeconomica Posnaniensia, nr 6
+</noautolinks>
 {{a|Paulina Struś}}
-[[Kategoria:Systemy informatyczne]]
+[[Kategoria:Przemysł 4.0]]
+{{#metamaster:description|Big Data to zbiór dużych, różnorodnych i zmieniających się danych, które napływają w czasie rzeczywistym. Odkrywanie nowej wiedzy z tych danych wymaga innowacyjnych metod i technologii.}}

Anonimowy

Szukaj

Big data: Różnice pomiędzy wersjami

Przestrzenie nazw

Więcej

Działania na stronie

Aktualna wersja na dzień 22:45, 9 gru 2023

Spis treści

TL;DR

Inne definicje Big Data

Struktura Big Data (3V)

Źródła Big Data

Big Data a tradycyjne metody przetwarzania danych

Ograniczenia Big Data

Technologie Big Data

Bibliografia

Nawigacja

Encyklopedia

Narzędzia wiki

Narzędzia wiki

Anonimowy

Szukaj

Big data: Różnice pomiędzy wersjami

Aktualna wersja na dzień 22:45, 9 gru 2023

TL;DR

Inne definicje Big Data

Struktura Big Data (3V)

Źródła Big Data

Big Data a tradycyjne metody przetwarzania danych

Ograniczenia Big Data

Technologie Big Data

Bibliografia

Nawigacja

Narzędzia wiki

Narzędzia dla stron

Kategorie