Analiza danych

(Przekierowano z Data analytics)
Analiza danych
Polecane artykuły


Analiza danych to proces polegający na sprawdzaniu, porządkowaniu, przekształcaniu i modelowaniu danych w celu zdobycia użytecznych informacji, wypracowania wniosków i wspierania procesu decyzyjnego. Analiza danych ma wiele aspektów i podejść, obejmujących różne techniki pod różnymi nazwami, w różnych obszarach biznesowych, naukowych i społecznych. Praktyczne podejście do definiowania danych polega na tym, że dane to liczby, znaki, obrazy lub inne metody zapisu, w formie, którą można ocenić w celu określenia lub podjęcia decyzji o konkretnym działaniu. Wiele osób uważa, że dane same w sobie nie mają znaczenia – dopiero dane przetworzone i zinterpretowane stają się informacją.

Proces analizy danych

Analiza odnosi się do rozbicia całości posiadanych informacji na jej odrębne komponenty w celu indywidualnego badania. Analiza danych to proces uzyskiwania nieprzetworzonych danych i przekształcania ich w informacje przydatne do podejmowania decyzji przez użytkowników. Dane są zbierane i analizowane, aby odpowiadać na pytania, testować hipotezy lub obalać teorie. Istnieje kilka faz, które można wyszczególnić w procesie analizy danych. Fazy są iteracyjne, ponieważ informacje zwrotne z faz kolejnych mogą spowodować dodatkową pracę w fazach wcześniejszych.

  • Zdefiniowanie wymagań

Przed przystąpieniem do analizy danych, należy dokładnie określić wymagania jakościowe dotyczące danych. Dane wejściowe, które mają być przedmiotem analizy, są określone na podstawie wymagań osób kierujących analizą lub klientów (którzy będą używać finalnego produktu analizy). Ogólny typ jednostki, na podstawie której dane będą zbierane, jest określany jako jednostka eksperymentalna (np. osoba lub populacja ludzi. Dane mogą być liczbowe lub kategoryczne (tj. Etykiety tekstowe). Faza definiowania wymagań powinna dać odpowiedź na 2 zasadnicze pytania:

  • co chcemy zmierzyć?
  • w jaki sposób chcemy to zmierzyć?
  • Gromadzenie danych

Dane są gromadzone z różnych źródeł. Wymogi, co do rodzaju i jakości danych mogą być przekazywane przez analityków do "opiekunów danych”, takich jak personel technologii informacyjnych w organizacji. Dane ponadto mogą być również gromadzone automatycznie z różnego rodzaju czujników znajdujących się w otoczeniu - takich jak kamery drogowe, satelity, urządzenia rejestrujące obraz, dźwięk oraz parametry fizyczne. Kolejną metodą jest również pozyskiwanie danych w drodze wywiadów, gromadzenie ze źródeł internetowych lub bezpośrednio z dokumentacji.

  • Przetwarzanie danych

Zgromadzone dane muszą zostać przetworzone lub zorganizowane w sposób logiczny do analizy. Na przykład, mogą one zostać umieszczone w tabelach w celu dalszej analizy - w arkuszu kalkulacyjnym lub innym oprogramowaniu. Oczyszczanie danych Po fazie przetworzenia i uporządkowania, dane mogą być niekompletne, zawierać duplikaty lub zawierać błędy. Konieczność czyszczenia danych wynika z problemów związanych z wprowadzaniem i przechowywaniem danych. Czyszczenie danych to proces zapobiegania powstawaniu i korygowania wykrytych błędów. Typowe zadania obejmują dopasowywanie rekordów, identyfikowanie nieścisłości, ogólny przegląd jakość istniejących danych, usuwanie duplikatów i segmentację kolumn. Niezwykłe istotne jest też zwracanie uwagi na dane których wartości są powyżej lub poniżej ustalonych wcześniej progów (ekstrema). (M. Smith (2018) s. 80)

  • Właściwa analiza danych

Istnieje kilka metod, które można wykorzystać do tego celu, na przykład data mining, business intelligence, wizualizacja danych lub badania eksploracyjne. Ta ostatnia metoda jest sposobem analizowania zbiorów informacji w celu określenia ich odrębnych cech. W ten sposób dane mogą zostać wykorzystane do przetestowania pierwotnej hipotezy. Statystyki opisowe to kolejna metoda analizy zebranych informacji. Dane są badane, aby znaleźć najważniejsze ich cechy. W statystykach opisowych analitycy używają kilku podstawowych narzędzi - można użyć średniej lub średniej z zestawu liczb. Pomaga to określić ogólny trend aczkolwiek nie zapewnia to dużej dokładności przy ocenie ogólnego obrazu zebranych danych. W tej fazie ma miejsce również modelowanie i tworzenie formuł matematycznych - stosowane są w celu identyfikacji zależności między zmiennymi, takich jak korelacja lub przyczynowość. Ogólnie rzecz biorąc, można opracować modele do oceny konkretnej zmiennej w zbiorze danych na podstawie innych zmiennych z pewnym błędem resztkowym w zależności od dokładności modelu (tj. Dane = Model + Błąd)

  • Raportowanie i dystrybucja wyników

Ta faza polega na ustalaniu w jakiej formie przekazywać wyniki. Analityk może rozważyć róże techniki wizualizacji danych, aby w sposób wyraźnym i skuteczny przekazać wnioski z analizy odbiorcom. Wizualizacja danych wykorzystuje formy graficzne jak wykresy i tabele. Tabele są przydatne dla użytkownika, który może wyszukiwać konkretne rekordy, podczas gdy wykresy (np. Wykresy słupkowe lub liniowe) dają spojrzenie ilościowych na zbiór analizowanych danych. (F. Provest, T. Fawcett (2014) s. 47-51)

Analizy jakościowe i ilościowe

Celem analiz jest generowanie wiedzy o danym zjawisku, jednak charakter tej wiedzy jest różny i odzwierciedla różne potrzeby badawcze. Niektóre badania mają na celu standaryzację i systematyczne porównania, inne dążą do szczegółowego określenia danego zjawiska lub zaistniałej sytuacji. Te różne intencje wymagają różnych podejść i metod, które zazwyczaj są klasyfikowane jako ilościowe lub jakościowe.

Analizy ilościowe zazwyczaj badają związek między dwoma zdarzeniami, gdzie jedno ze zdarzeń jest konsekwencją drugiego. Aby sprawdzić przyczynowość lub związek między 2 zdarzeniami analitycy ilościowi będą starali się utrzymać poziom kontroli nad różnymi zmiennymi, które mogą wpływać na relacje między zdarzeniami. Dane ilościowe są często gromadzone w ankietach i kwestionariuszach, które są starannie opracowywane i ustrukturyzowane w celu dostarczenia danych liczbowych, które można zbadać statystycznie, a uzyskane wyniki, można uogólnić do większej populacji.

Jakościowa analiza danych zawiera zakres procesów i procedur, dzięki którym przechodzimy od zgromadzonych danych jakościowych do wyjaśnienia, zrozumienia lub interpretacji zjawisk które badamy. Jakościowa analiza danych zazwyczaj opiera się na filozofii interpretacyjnej. (U. Flick (2013) s. 3-5)

Bibliografia

Autor: Szymon Wszołek