Big data: Różnice pomiędzy wersjami
m (Dodanie TL;DR) |
m (cleanup bibliografii i rotten links) |
||
(Nie pokazano 9 wersji utworzonych przez 2 użytkowników) | |||
Linia 1: | Linia 1: | ||
'''Big Data''' - zbiór danych o dużej objętości, różnorodności, złożoności i zmienności, w którym [[dane]] napływają w sposób strumieniowy w czasie rzeczywistym. Wydobycie z nich nowej wiedzy wymaga zastosowania innowacyjnych metod i technologii (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142). | |||
'''Big Data''' | |||
==TL;DR== | ==TL;DR== | ||
Linia 22: | Linia 8: | ||
* duże dane, które wymagają maksymalizacji w celu przeprowadzenia wartościowej analizy [M. Cox i D. Ellsworth, 1997], | * duże dane, które wymagają maksymalizacji w celu przeprowadzenia wartościowej analizy [M. Cox i D. Ellsworth, 1997], | ||
* zbiory danych, których [[złożoność]] i rozmiar nie pozwalają na [[zarządzanie]] nimi za pomocą aktualnie znanych narzędzi [Fan i Bitef, 2012], | * zbiory danych, których [[złożoność]] i rozmiar nie pozwalają na [[zarządzanie]] nimi za pomocą aktualnie znanych narzędzi [Fan i Bitef, 2012], | ||
* dane pochodzące z różnych źródeł, charakteryzujące się dużym i szybkim napływem [IBM, 2013]. | * dane pochodzące z różnych źródeł, charakteryzujące się dużym i szybkim napływem [IBM, 2013]. | ||
==Struktura Big Data (3V)== | ==Struktura Big Data (3V)== | ||
Aby zbiór danych mógł posłużyć do zbadania korelacji pomiędzy poszczególnymi danymi i być źródłem rzetelnych wniosków, zbiór ten musi spełniać trzy warunki. Można je określić jako 3V (G. Błażejewicz 2016, s. 21): | Aby zbiór danych mógł posłużyć do zbadania korelacji pomiędzy poszczególnymi danymi i być źródłem rzetelnych wniosków, zbiór ten musi spełniać trzy warunki. Można je określić jako 3V (G. Błażejewicz 2016, s. 21): | ||
* '''ilość (volume)''' | * '''ilość (volume)''' - zbiór musi zawierać wystarczająco dużo danych, aby wykazane prawidłowości można uznać za istotne, | ||
* '''zmienność w czasie ([[velocity]])''' | * '''zmienność w czasie ([[velocity]])''' - dane muszą być odzwierciedleniem zmian w czasie i pozwalać na pracę w czasie rzeczywistym, | ||
* '''zróżnicowanie (variety)''' | * '''zróżnicowanie (variety)''' - aby prawidłowo osadzić dane w kontekście, muszą być one odpowiednio zróżnicowane. | ||
Do tych podstawowych 3 charakterystyk, można dodać także dodatkowe dwa atrybuty (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142-143): | Do tych podstawowych 3 charakterystyk, można dodać także dodatkowe dwa atrybuty (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142-143): | ||
* '''zmienność (variabilty)''' | * '''zmienność (variabilty)''' - dane napływają z różną prędkością w zależności od okresowych trendów czy szczytów gospodarczych lub politycznych, | ||
* '''złożoność (complexity)''' | * '''złożoność (complexity)''' - dane można podzielić na strukturalne, np. numery pesel, o mieszanej strukturze, np. adresy e-mail, oraz na dane niestrukturalne, np. pliki wideo. | ||
<google>n</google> | |||
==Źródła Big Data== | ==Źródła Big Data== | ||
Jedną z charakterystyk Big Data jest [[różnorodność]] | Jedną z charakterystyk Big Data jest [[różnorodność]] - oznacza to, że dane mogą pochodzić z różnych źródeł i być przedstawiane w rozmaitej formie. Do źródeł pochodzenia tych danych zalicza się (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 143): | ||
* '''wewnętrzne dane''' organizacji, np. dane księgowe, | * '''wewnętrzne dane''' organizacji, np. dane księgowe, | ||
* dane '''pozyskane z zewnątrz''', np. [[informacje]] zamieszczane w mediach społecznościowych, | * dane '''pozyskane z zewnątrz''', np. [[informacje]] zamieszczane w mediach społecznościowych, | ||
Linia 54: | Linia 41: | ||
Wykorzystanie Big Data, ze względu na objętość i złożoność danych niesie za sobą pewne ograniczenia (M. Czajkowska i in. 2015, s. 29-30): | Wykorzystanie Big Data, ze względu na objętość i złożoność danych niesie za sobą pewne ograniczenia (M. Czajkowska i in. 2015, s. 29-30): | ||
* '''wysokie [[koszty]]''' związane z przechowywaniem danych i zapewnieniem bezpieczeństwa informacji, | * '''wysokie [[koszty]]''' związane z przechowywaniem danych i zapewnieniem bezpieczeństwa informacji, | ||
* '''trudna [[transformacja]] danych''' (tzw. czyszczenie danych) | * '''trudna [[transformacja]] danych''' (tzw. czyszczenie danych) - szczególnie przy danych pozyskiwanych z różnych źródeł, | ||
* '''problemy metodologiczne''' spowodowane m.in. koniecznością zastosowania nowoczesnych algorytmów uczenia maszynowego. | * '''problemy metodologiczne''' spowodowane m.in. koniecznością zastosowania nowoczesnych algorytmów uczenia maszynowego. | ||
==Technologie Big Data == | ==Technologie Big Data== | ||
Dane Big Data powinny być poddawane analizie w czasie rzeczywistym, dlatego powstają nowe rozwiązania pozwalające na dokonywanie analizy danych podczas procesu ich generowania, co nie wymaga wprowadzania ich do baz danych. | Dane Big Data powinny być poddawane analizie w czasie rzeczywistym, dlatego powstają nowe rozwiązania pozwalające na dokonywanie analizy danych podczas procesu ich generowania, co nie wymaga wprowadzania ich do baz danych. | ||
* '''NoSQL''' | * '''NoSQL''' | ||
Linia 65: | Linia 52: | ||
* '''Apache Hadoop''' | * '''Apache Hadoop''' | ||
Apache Hadoop to oprogramowanie, dzięki któremu możliwe jest [[przetwarzanie danych]] w klastrach komputerów przy wykorzystaniu prostych modeli programowania. Tego typu biblioteki danych są odporne na uszkodzenia i pozwalają na obsługę uszkodzeń w warstwie aplikacji (K. Racka 2016, s. 319-320). | Apache Hadoop to oprogramowanie, dzięki któremu możliwe jest [[przetwarzanie danych]] w klastrach komputerów przy wykorzystaniu prostych modeli programowania. Tego typu biblioteki danych są odporne na uszkodzenia i pozwalają na obsługę uszkodzeń w warstwie aplikacji (K. Racka 2016, s. 319-320). | ||
{{infobox5|list1={{i5link|a=[[Systemy ekspertowe]]}} — {{i5link|a=[[Sztuczne sieci neuronowe]]}} — {{i5link|a=[[Systemy wspomagania decyzji]]}} — {{i5link|a=[[System ekspercki]]}} — {{i5link|a=[[Systemy OLAP]]}} — {{i5link|a=[[Java]]}} — {{i5link|a=[[Responsive design]]}} — {{i5link|a=[[Hurtownia danych]]}} — {{i5link|a=[[Inżynieria odwrotna]]}} }} | |||
==Bibliografia== | ==Bibliografia== | ||
* Błażejewicz G. (2016), ''Rewolucja z | <noautolinks> | ||
* Czajowska M., Malarski M. (red.) (2015), ''Funkcjonowanie e-biznesu. | * Błażejewicz G. (2016), ''Rewolucja z Marketing Automation. Jak wykorzystać potencjał Big Data'', Wydawnictwo Naukowe PWN, Warszawa | ||
* Mach-Król M. (2015), | * Czajowska M., Malarski M. (red.) (2015), ''Funkcjonowanie e-biznesu. Zasoby, procesy, technologie'', Wydawnictwo Uniwersytetu Łódzkiego, Łódź | ||
* Racka K. (2016) | * Mach-Król M. (2015), ''Analiza i strategia big data w organizacjach'', Studies & Proceedings of Polish Association for Knowledge Management, nr 74 | ||
* Racka K. (2016), ''Big data - znaczenie, zastosowania i rozwiązania technologiczne'', Zeszyty Naukowe PWSZ w Płocku, Nauki Ekonomiczne, t. XXIII | |||
* Smolarek M. (red.) (2016), ''Technologie informatyczne w zarządzaniu kapitałem ludzkim w organizacji'', Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach, Katowice | * Smolarek M. (red.) (2016), ''Technologie informatyczne w zarządzaniu kapitałem ludzkim w organizacji'', Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach, Katowice | ||
* Tabakow M., Korczak J., Franczyk B. (2014), ''Big Data | * Tabakow M., Korczak J., Franczyk B. (2014), ''Big Data - definicje, wyzwania i technologie informatyczne'', Business Informatics, nr 1 | ||
* Woźniczka J. (2018), | * Woźniczka J. (2018), ''Big data w marketingu: szanse i zagrożenia'', Studia Oeconomica Posnaniensia, nr 6 | ||
</noautolinks> | |||
{{a|Paulina Struś}} | {{a|Paulina Struś}} | ||
[[Kategoria: | [[Kategoria:Przemysł 4.0]] | ||
{{#metamaster:description|Big Data to zbiór dużych, różnorodnych i zmieniających się danych, które napływają w czasie rzeczywistym. Odkrywanie nowej wiedzy z tych danych wymaga innowacyjnych metod i technologii.}} |
Aktualna wersja na dzień 22:45, 9 gru 2023
Big Data - zbiór danych o dużej objętości, różnorodności, złożoności i zmienności, w którym dane napływają w sposób strumieniowy w czasie rzeczywistym. Wydobycie z nich nowej wiedzy wymaga zastosowania innowacyjnych metod i technologii (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142).
TL;DR
Big Data to duże, różnorodne i zmienne zbiory danych, które wymagają innowacyjnych metod i technologii do ich przetwarzania. Dane te pochodzą z różnych źródeł i są gromadzone w czasie rzeczywistym. Istnieją różnice pomiędzy Big Data a tradycyjnym przetwarzaniem danych, a wykorzystanie Big Data niesie za sobą pewne ograniczenia. Technologie takie jak NoSQL, MapReduce i Apache Hadoop pozwalają na analizę i przetwarzanie danych Big Data w czasie rzeczywistym.
Inne definicje Big Data
Przez lata w literaturze pojawiło się kilka definicji Big Data, które dotykają różnych aspektów tego zagadnienia. Według najpopularniejszych z nich, Big Data można określić jako (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142):
- duże dane, które wymagają maksymalizacji w celu przeprowadzenia wartościowej analizy [M. Cox i D. Ellsworth, 1997],
- zbiory danych, których złożoność i rozmiar nie pozwalają na zarządzanie nimi za pomocą aktualnie znanych narzędzi [Fan i Bitef, 2012],
- dane pochodzące z różnych źródeł, charakteryzujące się dużym i szybkim napływem [IBM, 2013].
Struktura Big Data (3V)
Aby zbiór danych mógł posłużyć do zbadania korelacji pomiędzy poszczególnymi danymi i być źródłem rzetelnych wniosków, zbiór ten musi spełniać trzy warunki. Można je określić jako 3V (G. Błażejewicz 2016, s. 21):
- ilość (volume) - zbiór musi zawierać wystarczająco dużo danych, aby wykazane prawidłowości można uznać za istotne,
- zmienność w czasie (velocity) - dane muszą być odzwierciedleniem zmian w czasie i pozwalać na pracę w czasie rzeczywistym,
- zróżnicowanie (variety) - aby prawidłowo osadzić dane w kontekście, muszą być one odpowiednio zróżnicowane.
Do tych podstawowych 3 charakterystyk, można dodać także dodatkowe dwa atrybuty (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 142-143):
- zmienność (variabilty) - dane napływają z różną prędkością w zależności od okresowych trendów czy szczytów gospodarczych lub politycznych,
- złożoność (complexity) - dane można podzielić na strukturalne, np. numery pesel, o mieszanej strukturze, np. adresy e-mail, oraz na dane niestrukturalne, np. pliki wideo.
Źródła Big Data
Jedną z charakterystyk Big Data jest różnorodność - oznacza to, że dane mogą pochodzić z różnych źródeł i być przedstawiane w rozmaitej formie. Do źródeł pochodzenia tych danych zalicza się (M. Tabakow, J. Korczak, B. Franczyk 2014, s. 143):
- wewnętrzne dane organizacji, np. dane księgowe,
- dane pozyskane z zewnątrz, np. informacje zamieszczane w mediach społecznościowych,
- dane z transakcji, np. uzyskane od instytucji finansowych,
- dane pozyskane od placówek służb zdrowia,
- Deep Web Data, czyli dane pochodzące z Internetu, nieindeksowane przez większość wyszukiwarek,
- dane z wykresów odznaczające się dużą liczbą węzłów informacyjnych.
Big Data a tradycyjne metody przetwarzania danych
Różnice pomiędzy Big Data i tradycyjnym przetwarzaniem danych (M. Smolarek i in. 2016, s. 71):
- przewaga niestrukturyzowanych danych w przeciwieństwie do sztywnych reguł strukturyzacji danych w tradycyjnym procesie analizy,
- szybsze i łatwiejsze gromadzenie danych za pomocą nowych technologii, co było niemożliwe do wykonania za pomocą strukturalizowanych repozytoriów,
- poszerzenie baz danych o dane pochodzące z innych źródeł, niż wewnętrzna bazy danych organizacji,
- wykorzystanie w analizie danych strumieniowych,
- wprowadzenie metod przetwarzania zdarzeń.
Ograniczenia Big Data
Wykorzystanie Big Data, ze względu na objętość i złożoność danych niesie za sobą pewne ograniczenia (M. Czajkowska i in. 2015, s. 29-30):
- wysokie koszty związane z przechowywaniem danych i zapewnieniem bezpieczeństwa informacji,
- trudna transformacja danych (tzw. czyszczenie danych) - szczególnie przy danych pozyskiwanych z różnych źródeł,
- problemy metodologiczne spowodowane m.in. koniecznością zastosowania nowoczesnych algorytmów uczenia maszynowego.
Technologie Big Data
Dane Big Data powinny być poddawane analizie w czasie rzeczywistym, dlatego powstają nowe rozwiązania pozwalające na dokonywanie analizy danych podczas procesu ich generowania, co nie wymaga wprowadzania ich do baz danych.
- NoSQL
Bazy danych NoNSQ dają możliwość gromadzenia i przetwarzania danych niestrukturalnych, ich wadami są jednak: mniejsza dokładność danych i brak sformalizowania, co przekłada się na bardziej skomplikowany język zapytań.
- MapReduce
Model programowania MapReduce pozwala na podział problemu na etap mapowania i redukcji. Polega na przetwarzaniu danych bezpośrednio w miejscu ich przechowywania. Rozwiązanie to zaoszczędza czas, który musiałby być przeznaczony na przesył danych, a sposób jego opracowania sprawia, że jest odporny na awarie maszyn.
- Apache Hadoop
Apache Hadoop to oprogramowanie, dzięki któremu możliwe jest przetwarzanie danych w klastrach komputerów przy wykorzystaniu prostych modeli programowania. Tego typu biblioteki danych są odporne na uszkodzenia i pozwalają na obsługę uszkodzeń w warstwie aplikacji (K. Racka 2016, s. 319-320).
Big data — artykuły polecane |
Systemy ekspertowe — Sztuczne sieci neuronowe — Systemy wspomagania decyzji — System ekspercki — Systemy OLAP — Java — Responsive design — Hurtownia danych — Inżynieria odwrotna |
Bibliografia
- Błażejewicz G. (2016), Rewolucja z Marketing Automation. Jak wykorzystać potencjał Big Data, Wydawnictwo Naukowe PWN, Warszawa
- Czajowska M., Malarski M. (red.) (2015), Funkcjonowanie e-biznesu. Zasoby, procesy, technologie, Wydawnictwo Uniwersytetu Łódzkiego, Łódź
- Mach-Król M. (2015), Analiza i strategia big data w organizacjach, Studies & Proceedings of Polish Association for Knowledge Management, nr 74
- Racka K. (2016), Big data - znaczenie, zastosowania i rozwiązania technologiczne, Zeszyty Naukowe PWSZ w Płocku, Nauki Ekonomiczne, t. XXIII
- Smolarek M. (red.) (2016), Technologie informatyczne w zarządzaniu kapitałem ludzkim w organizacji, Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach, Katowice
- Tabakow M., Korczak J., Franczyk B. (2014), Big Data - definicje, wyzwania i technologie informatyczne, Business Informatics, nr 1
- Woźniczka J. (2018), Big data w marketingu: szanse i zagrożenia, Studia Oeconomica Posnaniensia, nr 6
Autor: Paulina Struś