Data science: Różnice pomiędzy wersjami
m (Infobox update) |
m (cleanup bibliografii i rotten links) |
||
(Nie pokazano 15 wersji utworzonych przez 2 użytkowników) | |||
Linia 1: | Linia 1: | ||
'''Data Science''' - jest wynikiem 50 lub więcej lat ciągłego udoskonalania, zbliżając się coraz bardziej do ideału umożliwiającego natychmiastowe tłumaczenie jasnego abstrakcyjnego myślenia do wyników obliczeniowych, dotyczy ona naprawdę dużych danych, których tradycyjne [[zasoby]] komputerowe nie były w stanie pomieścić. Sama nauka staje się zbiorem danych, które możemy analizować i badać, wykorzystuje naukowe metody, procesy, algorytmy i systemy do wydobywania wiedzy i spostrzeżeń. Natomiast stażyści ds. danych posiadają [[umiejętności]] potrzebne do radzenia sobie z tak dużymi zbiorami danych<ref>Donoho D.(2015), s. 4-5,7-9,22-24 </ref>. | |||
</ | |||
==TL;DR== | |||
Artykuł przedstawia znaczenie i zastosowanie Data Science, różnice między Data Science a statystyką oraz zadania analityka danych. Autor opisuje również sześć głównych dziedzin Data Science, w tym poszukiwanie i przygotowanie danych, reprezentację i transformację danych, obliczenia za pomocą danych, modelowanie danych, wizualizację danych i prezentację oraz naukę o danych. | |||
==Zastosowanie Data Science== | ==Zastosowanie Data Science== | ||
W swojej pracy William S. Cleveland przedstawia zastosowanie Data Science <ref>Cleveland S.W. | W swojej pracy William S. Cleveland przedstawia zastosowanie Data Science <ref>Cleveland S.W., s. 1-3</ref>: | ||
* wykorzystuje naukowe metody, procesy, algorytmy i systemy do wydobywania wiedzy i spostrzeżeń z danych w różnych formach, zarówno strukturalnych, jak i nieustrukturyzowanych, | * wykorzystuje naukowe metody, procesy, algorytmy i systemy do wydobywania wiedzy i spostrzeżeń z danych w różnych formach, zarówno strukturalnych, jak i nieustrukturyzowanych, | ||
* do rozwiązania problemu wykorzystują elegancką matematykę i potężne ilościowe środowiska programistyczne wzorowane na tej matematyce, | * do rozwiązania problemu wykorzystują elegancką matematykę i potężne ilościowe środowiska programistyczne wzorowane na tej matematyce, | ||
Linia 27: | Linia 12: | ||
==Różnice między Data Science a Statystyką== | ==Różnice między Data Science a Statystyką== | ||
Powołując się na artykuł Davida Donoho '''"Data Scientist"''' oznacza specjalistę, który używa metod naukowych do wyzwolenia | Powołując się na artykuł Davida Donoho '''"Data Scientist"''' oznacza specjalistę, który używa metod naukowych do wyzwolenia | ||
i tworzenia znaczenia z surowych danych. | i tworzenia znaczenia z surowych danych. | ||
Linia 34: | Linia 18: | ||
'''Statystyka''' oznacza praktykę lub naukę zbierania i analizowania | '''Statystyka''' oznacza praktykę lub naukę zbierania i analizowania | ||
[[dane]] liczbowe w dużych ilościach. | [[dane]] liczbowe w dużych ilościach. | ||
Dla statystyków ta [[definicja]] statystyki zdaje się już obejmować wszystko, co definiuje | Dla statystyków ta [[definicja]] statystyki zdaje się już obejmować wszystko, co definiuje | ||
'''“Data | '''“Data Scientist"''', ale definicja statystyki wydaje się być ograniczona, ponieważ wiele prac statystycznych dotyczy wprost wniosków z bardzo małych próbek - tak było od setek lat. W rzeczywistości statystyka radzi sobie z danymi, ale przybywa - dużo lub | ||
mało<ref>Donoho D.(2015) | mało<ref>Donoho D.(2015), s. 4-5,7-9,22-24 </ref>. | ||
<google>n</google> | |||
==Zadania analityka danych== | ==Zadania analityka danych== | ||
W swojej pracy William S. Cleveland wspomina, że [[analityk danych]] napotyka dwa krytyczne zadania, które wykorzystują [[modele]] statystyczne i metody<ref>Cleveland S.W. | W swojej pracy William S. Cleveland wspomina, że [[analityk danych]] napotyka dwa krytyczne zadania, które wykorzystują [[modele]] statystyczne i metody<ref>Cleveland S.W., s. 1-3</ref>: | ||
*'''[[specyfikacja]]''' - budowa modelu danych; metody zostały szeroko opracowane dla pewnych klas modeli; jednym z przykładów jest klasyczne modele regresji liniowej. Ale wiele innych powszechnie używanych klas nie ma praktycznie żadnych metod | * '''[[specyfikacja]]''' - budowa modelu danych; metody zostały szeroko opracowane dla pewnych klas modeli; jednym z przykładów jest klasyczne modele regresji liniowej. Ale wiele innych powszechnie używanych klas nie ma praktycznie żadnych metod | ||
*'''szacowanie i rozkład''' - wnioski formalne, matematyczne i probabilistyczne, zależnie od modelu, w którym szacuje się wielkość modelu, a [[niepewność]] charakteryzuje rozkłady prawdopodobieństwa. Istnieje szeroka gama metod szacowania i dystrybucji | * '''szacowanie i rozkład''' - wnioski formalne, matematyczne i probabilistyczne, zależnie od modelu, w którym szacuje się wielkość modelu, a [[niepewność]] charakteryzuje rozkłady prawdopodobieństwa. Istnieje szeroka gama metod szacowania i dystrybucji | ||
Często faza budowania modelu jest najważniejszą częścią analizy, a faza szacowania i dystrybucji jest prosta. Budowa modelu jest złożona, ponieważ wymaga połączenia informacji pochodzących z eksploracji danych i informacji ze źródeł zewnętrznych. Narzędzia ułatwiające specyfikację są bardzo potrzebne analitykom danych. | Często faza budowania modelu jest najważniejszą częścią analizy, a faza szacowania i dystrybucji jest prosta. Budowa modelu jest złożona, ponieważ wymaga połączenia informacji pochodzących z eksploracji danych i informacji ze źródeł zewnętrznych. Narzędzia ułatwiające specyfikację są bardzo potrzebne analitykom danych. | ||
==Sześć dywizji Data Science== | ==Sześć dywizji Data Science== | ||
Działalność Greater Data Science dzieli się na 6 działów co opisuje w swojej pracy David Donoho<ref>Donoho D.(2015) | Działalność Greater Data Science dzieli się na 6 działów co opisuje w swojej pracy David Donoho<ref>Donoho D.(2015), s. 4-5,7-9,22-24 </ref>: | ||
'''1.Poszukiwanie i przygotowanie danych''': | '''1.Poszukiwanie i przygotowanie danych''': | ||
*'''Poszukiwanie''': każdy naukowiec zajmujący się danymi poświęca wiele czasu i wysiłku na zbadanie danych- sprawdzenie jego najbardziej podstawowych właściwości i ujawnienie nieoczekiwane funkcji. | * '''Poszukiwanie''': każdy naukowiec zajmujący się danymi poświęca wiele czasu i wysiłku na zbadanie danych - sprawdzenie jego najbardziej podstawowych właściwości i ujawnienie nieoczekiwane funkcji. | ||
*'''Przygotowanie'''- Wiele zestawów danych zawiera anomalie i artefakty, każdy [[projekt]] oparty na danych wymaga uważnego identyfikowania i rozwiązywania takich problemów jak: | * '''Przygotowanie''' - Wiele zestawów danych zawiera anomalie i artefakty, każdy [[projekt]] oparty na danych wymaga uważnego identyfikowania i rozwiązywania takich problemów jak: | ||
* ponowne formatowanie | * ponowne formatowanie | ||
* przekodowanie samych wartości | * przekodowanie samych wartości | ||
Linia 62: | Linia 48: | ||
domowe pliki tekstowe i arkusze kalkulacyjne do baz danych SQL i NoSQL, rozproszone bazy danych i żywe strumienie danych. Naukowcy zajmujący się danymi muszą znać struktury, transformacje i algorytmy zaangażowane w używanie wszystkich tych różnych reprezentacji. | domowe pliki tekstowe i arkusze kalkulacyjne do baz danych SQL i NoSQL, rozproszone bazy danych i żywe strumienie danych. Naukowcy zajmujący się danymi muszą znać struktury, transformacje i algorytmy zaangażowane w używanie wszystkich tych różnych reprezentacji. | ||
'''3. Obliczanie za pomocą danych'''- Każdy naukowiec danych powinien znać i używać kilku języków analizy danych i przetwarzania danych jak np. R i [[Python]], ale także specyficzne języki do przekształcania i manipulowania tekstem.Poza podstawową znajomością języków, naukowcy zajmujący się danymi muszą na bieżąco śledzić nowe idiomy i sprawnie posługiwać się tymi językami. Klastry i przetwarzanie w chmurze oraz możliwość uruchamiania ogromnej ilości zadań w takich klastrach stał się niezwykle ważnym składnikiem współczesnego krajobrazu obliczeniowego. Wreszcie, naukowcy zajmujący się danymi opracowują pakiety, które zawierają abstrakcyjne, często używane elementy [[workflow]] i | '''3. Obliczanie za pomocą danych''' - Każdy naukowiec danych powinien znać i używać kilku języków analizy danych i przetwarzania danych jak np. R i [[Python]], ale także specyficzne języki do przekształcania i manipulowania tekstem.Poza podstawową znajomością języków, naukowcy zajmujący się danymi muszą na bieżąco śledzić nowe idiomy i sprawnie posługiwać się tymi językami. Klastry i przetwarzanie w chmurze oraz możliwość uruchamiania ogromnej ilości zadań w takich klastrach stał się niezwykle ważnym składnikiem współczesnego krajobrazu obliczeniowego. Wreszcie, naukowcy zajmujący się danymi opracowują pakiety, które zawierają abstrakcyjne, często używane elementy [[workflow]] i | ||
udostępnić je do wykorzystania w przyszłych projektach. | udostępnić je do wykorzystania w przyszłych projektach. | ||
'''4. [[Modelowanie]] danych '''- | '''4. [[Modelowanie]] danych '''- | ||
*'''Modelowanie generatywne'''- w którym proponuje się [[model]] stochastyczny, który mógłby wygenerować dane i wyprowadzać metody pozwalające wnioskować o właściwościach podstawowego mechanizmu generatywnego. | * '''Modelowanie generatywne''' - w którym proponuje się [[model]] stochastyczny, który mógłby wygenerować dane i wyprowadzać metody pozwalające wnioskować o właściwościach podstawowego mechanizmu generatywnego. | ||
*'''Modelowanie predykcyjne'''- w którym konstruuje się metody, które dobrze przewidują niektóre dane - czyli bardzo konkretny zbiór danych. To z grubsza pokrywa się z nowoczesna nauka maszynowa i jej przemysłowe odgałęzienia | * '''Modelowanie predykcyjne''' - w którym konstruuje się metody, które dobrze przewidują niektóre dane - czyli bardzo konkretny zbiór danych. To z grubsza pokrywa się z nowoczesna nauka maszynowa i jej przemysłowe odgałęzienia | ||
'''5. [[Wizualizacja danych]] i prezentacja '''- histogramy, wykresy punktowe, wykresy szeregów czasowych. Naukowcy zajmujący się danymi również tworzą kokpity menedżerskie do monitorowania przetwarzania danych rurociągi, które uzyskują dostęp do strumieniowych lub szeroko rozproszonych danych. Wreszcie opracowują wizualizacje, przedstawiają wnioski z ćwiczenia modelowania lub zadania CTF. | '''5. [[Wizualizacja danych]] i prezentacja ''' - histogramy, wykresy punktowe, wykresy szeregów czasowych. Naukowcy zajmujący się danymi również tworzą kokpity menedżerskie do monitorowania przetwarzania danych rurociągi, które uzyskują dostęp do strumieniowych lub szeroko rozproszonych danych. Wreszcie opracowują wizualizacje, przedstawiają wnioski z ćwiczenia modelowania lub zadania CTF. | ||
'''6. Nauka o nauce o danych'''- naukowcy zajmują się nauką o danych, kiedy identyfikują je powszechne analizy / przetwarzanie przepływów pracy np.: | '''6. Nauka o nauce o danych''' - naukowcy zajmują się nauką o danych, kiedy identyfikują je powszechne analizy / przetwarzanie przepływów pracy np.: | ||
* wykorzystanie danych o częstotliwości ich występowania w systemie | * wykorzystanie danych o częstotliwości ich występowania w systemie | ||
* mierzenie skuteczności standardowych przepływów pracy pod względem czasu ludzkiego, zasobu obliczeniowego, ważności analizy lub innej wydajności | * mierzenie skuteczności standardowych przepływów pracy pod względem czasu ludzkiego, zasobu obliczeniowego, ważności analizy lub innej wydajności | ||
== | {{infobox5|list1={{i5link|a=[[Fuzzy logic]]}} — {{i5link|a=[[Język wysokiego poziomu]]}} — {{i5link|a=[[Bioinformatyka]]}} — {{i5link|a=[[Diagram Venna]]}} — {{i5link|a=[[System ekspercki]]}} — {{i5link|a=[[Uczenie maszynowe]]}} — {{i5link|a=[[Ontologia]]}} — {{i5link|a=[[SQL]]}} — {{i5link|a=[[Architektura informacji]]}} }} | ||
==Przypisy== | ==Przypisy== | ||
<references/> | <references /> | ||
[[Kategoria: | ==Bibliografia== | ||
<noautolinks> | |||
* Cleveland S. (2017), ''Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics'', Journal of Computational and Graphical Statistics nr 26 | |||
* Dhar V. (2013), ''Data Science and Prediction'', Komunikacja ACM | |||
* Donoho D. (2015), ''[https://courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf 50 years of Data Science]'', Revue Internationale de Statistique, International Statistical Institute | |||
* O'Neil C., Schutt R. (2013), ''Doing Data Science'', Gravenstein Highway North, Sebastopol | |||
</noautolinks> | |||
[[Kategoria:Ekonometria]] | |||
{{a| Paulina Dryjańska}} | {{a| Paulina Dryjańska}} | ||
{{#metamaster:description|Data Science to nauka analizująca duże zbiory danych, wykorzystująca metody do wydobywania wiedzy. Stażyści ds. danych mają umiejętności potrzebne do pracy z tymi danymi.}} |
Aktualna wersja na dzień 19:17, 18 sty 2024
Data Science - jest wynikiem 50 lub więcej lat ciągłego udoskonalania, zbliżając się coraz bardziej do ideału umożliwiającego natychmiastowe tłumaczenie jasnego abstrakcyjnego myślenia do wyników obliczeniowych, dotyczy ona naprawdę dużych danych, których tradycyjne zasoby komputerowe nie były w stanie pomieścić. Sama nauka staje się zbiorem danych, które możemy analizować i badać, wykorzystuje naukowe metody, procesy, algorytmy i systemy do wydobywania wiedzy i spostrzeżeń. Natomiast stażyści ds. danych posiadają umiejętności potrzebne do radzenia sobie z tak dużymi zbiorami danych[1].
TL;DR
Artykuł przedstawia znaczenie i zastosowanie Data Science, różnice między Data Science a statystyką oraz zadania analityka danych. Autor opisuje również sześć głównych dziedzin Data Science, w tym poszukiwanie i przygotowanie danych, reprezentację i transformację danych, obliczenia za pomocą danych, modelowanie danych, wizualizację danych i prezentację oraz naukę o danych.
Zastosowanie Data Science
W swojej pracy William S. Cleveland przedstawia zastosowanie Data Science [2]:
- wykorzystuje naukowe metody, procesy, algorytmy i systemy do wydobywania wiedzy i spostrzeżeń z danych w różnych formach, zarówno strukturalnych, jak i nieustrukturyzowanych,
- do rozwiązania problemu wykorzystują elegancką matematykę i potężne ilościowe środowiska programistyczne wzorowane na tej matematyce,
- umiejętność radzenia sobie z artefaktami organizacyjnymi na dużą skalę przetwarzania klastrowego,
- umiejętność radzenia sobie z poważnymi nowymi ograniczeniami dotyczącymi algorytmów stwarzanych przez świat wieloprocesorowy / sieciowy
Różnice między Data Science a Statystyką
Powołując się na artykuł Davida Donoho "Data Scientist" oznacza specjalistę, który używa metod naukowych do wyzwolenia i tworzenia znaczenia z surowych danych. Dla statystyka brzmi to bardzo podobnie do statystyki: stosować metodologię wyciągać wnioski z danych. Statystyka oznacza praktykę lub naukę zbierania i analizowania dane liczbowe w dużych ilościach. Dla statystyków ta definicja statystyki zdaje się już obejmować wszystko, co definiuje “Data Scientist", ale definicja statystyki wydaje się być ograniczona, ponieważ wiele prac statystycznych dotyczy wprost wniosków z bardzo małych próbek - tak było od setek lat. W rzeczywistości statystyka radzi sobie z danymi, ale przybywa - dużo lub mało[3].
Zadania analityka danych
W swojej pracy William S. Cleveland wspomina, że analityk danych napotyka dwa krytyczne zadania, które wykorzystują modele statystyczne i metody[4]:
- specyfikacja - budowa modelu danych; metody zostały szeroko opracowane dla pewnych klas modeli; jednym z przykładów jest klasyczne modele regresji liniowej. Ale wiele innych powszechnie używanych klas nie ma praktycznie żadnych metod
- szacowanie i rozkład - wnioski formalne, matematyczne i probabilistyczne, zależnie od modelu, w którym szacuje się wielkość modelu, a niepewność charakteryzuje rozkłady prawdopodobieństwa. Istnieje szeroka gama metod szacowania i dystrybucji
Często faza budowania modelu jest najważniejszą częścią analizy, a faza szacowania i dystrybucji jest prosta. Budowa modelu jest złożona, ponieważ wymaga połączenia informacji pochodzących z eksploracji danych i informacji ze źródeł zewnętrznych. Narzędzia ułatwiające specyfikację są bardzo potrzebne analitykom danych.
Sześć dywizji Data Science
Działalność Greater Data Science dzieli się na 6 działów co opisuje w swojej pracy David Donoho[5]:
1.Poszukiwanie i przygotowanie danych:
- Poszukiwanie: każdy naukowiec zajmujący się danymi poświęca wiele czasu i wysiłku na zbadanie danych - sprawdzenie jego najbardziej podstawowych właściwości i ujawnienie nieoczekiwane funkcji.
- Przygotowanie - Wiele zestawów danych zawiera anomalie i artefakty, każdy projekt oparty na danych wymaga uważnego identyfikowania i rozwiązywania takich problemów jak:
- ponowne formatowanie
- przekodowanie samych wartości
- grupowanie, wygładzanie i podzestawy
2. Reprezentacja i transformacja danych
Reprezentacje matematyczne - są to interesujące i użyteczne struktury matematyczne do reprezentowania danych o charakterze specjalnym, w tym danych akustycznych, obrazu, czujnika i sieci.
Transformacja danych - głównym krokiem jest wdrożenie odpowiedniego przekształcenie pierwotnych danych w nową i bardziej odkrywczą formę. Zakres dzisiejszej reprezentacji danych obejmuje wszystko od domowe pliki tekstowe i arkusze kalkulacyjne do baz danych SQL i NoSQL, rozproszone bazy danych i żywe strumienie danych. Naukowcy zajmujący się danymi muszą znać struktury, transformacje i algorytmy zaangażowane w używanie wszystkich tych różnych reprezentacji.
3. Obliczanie za pomocą danych - Każdy naukowiec danych powinien znać i używać kilku języków analizy danych i przetwarzania danych jak np. R i Python, ale także specyficzne języki do przekształcania i manipulowania tekstem.Poza podstawową znajomością języków, naukowcy zajmujący się danymi muszą na bieżąco śledzić nowe idiomy i sprawnie posługiwać się tymi językami. Klastry i przetwarzanie w chmurze oraz możliwość uruchamiania ogromnej ilości zadań w takich klastrach stał się niezwykle ważnym składnikiem współczesnego krajobrazu obliczeniowego. Wreszcie, naukowcy zajmujący się danymi opracowują pakiety, które zawierają abstrakcyjne, często używane elementy workflow i udostępnić je do wykorzystania w przyszłych projektach.
4. Modelowanie danych -
- Modelowanie generatywne - w którym proponuje się model stochastyczny, który mógłby wygenerować dane i wyprowadzać metody pozwalające wnioskować o właściwościach podstawowego mechanizmu generatywnego.
- Modelowanie predykcyjne - w którym konstruuje się metody, które dobrze przewidują niektóre dane - czyli bardzo konkretny zbiór danych. To z grubsza pokrywa się z nowoczesna nauka maszynowa i jej przemysłowe odgałęzienia
5. Wizualizacja danych i prezentacja - histogramy, wykresy punktowe, wykresy szeregów czasowych. Naukowcy zajmujący się danymi również tworzą kokpity menedżerskie do monitorowania przetwarzania danych rurociągi, które uzyskują dostęp do strumieniowych lub szeroko rozproszonych danych. Wreszcie opracowują wizualizacje, przedstawiają wnioski z ćwiczenia modelowania lub zadania CTF.
6. Nauka o nauce o danych - naukowcy zajmują się nauką o danych, kiedy identyfikują je powszechne analizy / przetwarzanie przepływów pracy np.:
- wykorzystanie danych o częstotliwości ich występowania w systemie
- mierzenie skuteczności standardowych przepływów pracy pod względem czasu ludzkiego, zasobu obliczeniowego, ważności analizy lub innej wydajności
Data science — artykuły polecane |
Fuzzy logic — Język wysokiego poziomu — Bioinformatyka — Diagram Venna — System ekspercki — Uczenie maszynowe — Ontologia — SQL — Architektura informacji |
Przypisy
Bibliografia
- Cleveland S. (2017), Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics, Journal of Computational and Graphical Statistics nr 26
- Dhar V. (2013), Data Science and Prediction, Komunikacja ACM
- Donoho D. (2015), 50 years of Data Science, Revue Internationale de Statistique, International Statistical Institute
- O'Neil C., Schutt R. (2013), Doing Data Science, Gravenstein Highway North, Sebastopol
Autor: Paulina Dryjańska