Data science

Data science
Polecane artykuły


Data Science- jest wynikiem 50 lub więcej lat ciągłego udoskonalania, zbliżając się coraz bardziej do ideału umożliwiającego natychmiastowe tłumaczenie jasnego abstrakcyjnego myślenia do wyników obliczeniowych, dotyczy ona naprawdę dużych danych, których tradycyjne zasoby komputerowe nie były w stanie pomieścić. Sama nauka staje się zbiorem danych, które możemy analizować i badać, wykorzystuje naukowe metody, procesy, algorytmy i systemy do wydobywania wiedzy i spostrzeżeń. Natomiast stażyści ds. danych posiadają umiejętności potrzebne do radzenia sobie z tak dużymi zbiorami danych[1].

Zastosowanie Data Science

W swojej pracy William S. Cleveland przedstawia zastosowanie Data Science [2]:

  • wykorzystuje naukowe metody, procesy, algorytmy i systemy do wydobywania wiedzy i spostrzeżeń z danych w różnych formach, zarówno strukturalnych, jak i nieustrukturyzowanych,
  • do rozwiązania problemu wykorzystują elegancką matematykę i potężne ilościowe środowiska programistyczne wzorowane na tej matematyce,
  • umiejętność radzenia sobie z artefaktami organizacyjnymi na dużą skalę przetwarzania klastrowego,
  • umiejętność radzenia sobie z poważnymi nowymi ograniczeniami dotyczącymi algorytmów stwarzanych przez świat wieloprocesorowy / sieciowy

Różnice między Data Science a Statystyką

Powołując się na artykuł Davida Donoho "Data Scientist" oznacza specjalistę, który używa metod naukowych do wyzwolenia i tworzenia znaczenia z surowych danych. Dla statystyka brzmi to bardzo podobnie do statystyki: stosować metodologię wyciągać wnioski z danych. Statystyka oznacza praktykę lub naukę zbierania i analizowania dane liczbowe w dużych ilościach. Dla statystyków ta definicja statystyki zdaje się już obejmować wszystko, co definiuje “Data Scientist”, ale definicja statystyki wydaje się być ograniczona, ponieważ wiele prac statystycznych dotyczy wprost wniosków z bardzo małych próbek - tak było od setek lat. W rzeczywistości statystyka radzi sobie z danymi, ale przybywa - dużo lub mało[3].

Zadania analityka danych

W swojej pracy William S. Cleveland wspomina, że analityk danych napotyka dwa krytyczne zadania, które wykorzystują modele statystyczne i metody[4]:

  • specyfikacja - budowa modelu danych; metody zostały szeroko opracowane dla pewnych klas modeli; jednym z przykładów jest klasyczne modele regresji liniowej. Ale wiele innych powszechnie używanych klas nie ma praktycznie żadnych metod
  • szacowanie i rozkład - wnioski formalne, matematyczne i probabilistyczne, zależnie od modelu, w którym szacuje się wielkość modelu, a niepewność charakteryzuje rozkłady prawdopodobieństwa. Istnieje szeroka gama metod szacowania i dystrybucji

Często faza budowania modelu jest najważniejszą częścią analizy, a faza szacowania i dystrybucji jest prosta. Budowa modelu jest złożona, ponieważ wymaga połączenia informacji pochodzących z eksploracji danych i informacji ze źródeł zewnętrznych. Narzędzia ułatwiające specyfikację są bardzo potrzebne analitykom danych.

Sześć dywizji Data Science

Działalność Greater Data Science dzieli się na 6 działów co opisuje w swojej pracy David Donoho[5]:

1.Poszukiwanie i przygotowanie danych:

  • Poszukiwanie: każdy naukowiec zajmujący się danymi poświęca wiele czasu i wysiłku na zbadanie danych- sprawdzenie jego najbardziej podstawowych właściwości i ujawnienie nieoczekiwane funkcji.
  • Przygotowanie- Wiele zestawów danych zawiera anomalie i artefakty, każdy projekt oparty na danych wymaga uważnego identyfikowania i rozwiązywania takich problemów jak:
  • ponowne formatowanie
  • przekodowanie samych wartości
  • grupowanie, wygładzanie i podzestawy

2. Reprezentacja i transformacja danych

Reprezentacje matematyczne - są to interesujące i użyteczne struktury matematyczne do reprezentowania danych o charakterze specjalnym, w tym danych akustycznych, obrazu, czujnika i sieci.

Transformacja danych - głównym krokiem jest wdrożenie odpowiedniego przekształcenie pierwotnych danych w nową i bardziej odkrywczą formę. Zakres dzisiejszej reprezentacji danych obejmuje wszystko od domowe pliki tekstowe i arkusze kalkulacyjne do baz danych SQL i NoSQL, rozproszone bazy danych i żywe strumienie danych. Naukowcy zajmujący się danymi muszą znać struktury, transformacje i algorytmy zaangażowane w używanie wszystkich tych różnych reprezentacji.

3. Obliczanie za pomocą danych- Każdy naukowiec danych powinien znać i używać kilku języków analizy danych i przetwarzania danych jak np. R i Python, ale także specyficzne języki do przekształcania i manipulowania tekstem.Poza podstawową znajomością języków, naukowcy zajmujący się danymi muszą na bieżąco śledzić nowe idiomy i sprawnie posługiwać się tymi językami. Klastry i przetwarzanie w chmurze oraz możliwość uruchamiania ogromnej ilości zadań w takich klastrach stał się niezwykle ważnym składnikiem współczesnego krajobrazu obliczeniowego. Wreszcie, naukowcy zajmujący się danymi opracowują pakiety, które zawierają abstrakcyjne, często używane elementy workflow i udostępnić je do wykorzystania w przyszłych projektach.

4. Modelowanie danych -

  • Modelowanie generatywne- w którym proponuje się model stochastyczny, który mógłby wygenerować dane i wyprowadzać metody pozwalające wnioskować o właściwościach podstawowego mechanizmu generatywnego.
  • Modelowanie predykcyjne- w którym konstruuje się metody, które dobrze przewidują niektóre dane - czyli bardzo konkretny zbiór danych. To z grubsza pokrywa się z nowoczesna nauka maszynowa i jej przemysłowe odgałęzienia

5. Wizualizacja danych i prezentacja - histogramy, wykresy punktowe, wykresy szeregów czasowych. Naukowcy zajmujący się danymi również tworzą kokpity menedżerskie do monitorowania przetwarzania danych rurociągi, które uzyskują dostęp do strumieniowych lub szeroko rozproszonych danych. Wreszcie opracowują wizualizacje, przedstawiają wnioski z ćwiczenia modelowania lub zadania CTF.

6. Nauka o nauce o danych- naukowcy zajmują się nauką o danych, kiedy identyfikują je powszechne analizy / przetwarzanie przepływów pracy np.:

  • wykorzystanie danych o częstotliwości ich występowania w systemie
  • mierzenie skuteczności standardowych przepływów pracy pod względem czasu ludzkiego, zasobu obliczeniowego, ważności analizy lub innej wydajności

Bibliografia

Przypisy

  1. Donoho D.(2015).50 years of Data Science, Journal of Computational and Graphical Statistics nr 26, s. 4-5,7-9,22-24
  2. Cleveland S.W.,Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics, Revue Internationale de Statistique, International Statistical Institute, s. 1-3
  3. Donoho D.(2015).50 years of Data Science, Journal of Computational and Graphical Statistics nr 26, s. 4-5,7-9,22-24
  4. Cleveland S.W.,Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics, Revue Internationale de Statistique, International Statistical Institute, s. 1-3
  5. Donoho D.(2015).50 years of Data Science, Journal of Computational and Graphical Statistics nr 26, s. 4-5,7-9,22-24

Autor: Paulina Dryjańska