Analiza danych
Analiza danych to proces polegający na sprawdzaniu, porządkowaniu, przekształcaniu i modelowaniu danych w celu zdobycia użytecznych informacji, wypracowania wniosków i wspierania procesu decyzyjnego. Analiza danych ma wiele aspektów i podejść, obejmujących różne techniki pod różnymi nazwami, w różnych obszarach biznesowych, naukowych i społecznych. Praktyczne podejście do definiowania danych polega na tym, że dane to liczby, znaki, obrazy lub inne metody zapisu, w formie, którą można ocenić w celu określenia lub podjęcia decyzji o konkretnym działaniu. Wiele osób uważa, że dane same w sobie nie mają znaczenia - dopiero dane przetworzone i zinterpretowane stają się informacją.
TL;DR
Analiza danych to proces przekształcania danych w informacje przydatne do podejmowania decyzji. Proces ten obejmuje zdefiniowanie wymagań, gromadzenie danych, przetwarzanie danych, właściwą analizę danych oraz raportowanie i dystrybucję wyników. Istnieją również różne podejścia do analizy danych, takie jak analiza ilościowa i jakościowa. Analiza ilościowa skupia się na badaniu związków między zdarzeniami, podczas gdy analiza jakościowa ma na celu wyjaśnienie i interpretację zjawisk.
Proces analizy danych
Analiza odnosi się do rozbicia całości posiadanych informacji na jej odrębne komponenty w celu indywidualnego badania. Analiza danych to proces uzyskiwania nieprzetworzonych danych i przekształcania ich w informacje przydatne do podejmowania decyzji przez użytkowników. Dane są zbierane i analizowane, aby odpowiadać na pytania, testować hipotezy lub obalać teorie. Istnieje kilka faz, które można wyszczególnić w procesie analizy danych. Fazy są iteracyjne, ponieważ informacje zwrotne z faz kolejnych mogą spowodować dodatkową pracę w fazach wcześniejszych.
- Zdefiniowanie wymagań
Przed przystąpieniem do analizy danych, należy dokładnie określić wymagania jakościowe dotyczące danych. Dane wejściowe, które mają być przedmiotem analizy, są określone na podstawie wymagań osób kierujących analizą lub klientów (którzy będą używać finalnego produktu analizy). Ogólny typ jednostki, na podstawie której dane będą zbierane, jest określany jako jednostka eksperymentalna (np. osoba lub populacja ludzi. Dane mogą być liczbowe lub kategoryczne (tj. Etykiety tekstowe). Faza definiowania wymagań powinna dać odpowiedź na 2 zasadnicze pytania:
- co chcemy zmierzyć?
- w jaki sposób chcemy to zmierzyć?
- Gromadzenie danych
Dane są gromadzone z różnych źródeł. Wymogi, co do rodzaju i jakości danych mogą być przekazywane przez analityków do "opiekunów danych", takich jak personel technologii informacyjnych w organizacji. Dane ponadto mogą być również gromadzone automatycznie z różnego rodzaju czujników znajdujących się w otoczeniu - takich jak kamery drogowe, satelity, urządzenia rejestrujące obraz, dźwięk oraz parametry fizyczne. Kolejną metodą jest również pozyskiwanie danych w drodze wywiadów, gromadzenie ze źródeł internetowych lub bezpośrednio z dokumentacji.
Zgromadzone dane muszą zostać przetworzone lub zorganizowane w sposób logiczny do analizy. Na przykład, mogą one zostać umieszczone w tabelach w celu dalszej analizy - w arkuszu kalkulacyjnym lub innym oprogramowaniu.
- Oczyszczanie danych
Po fazie przetworzenia i uporządkowania, dane mogą być niekompletne, zawierać duplikaty lub zawierać błędy. Konieczność czyszczenia danych wynika z problemów związanych z wprowadzaniem i przechowywaniem danych. Czyszczenie danych to proces zapobiegania powstawaniu i korygowania wykrytych błędów. Typowe zadania obejmują dopasowywanie rekordów, identyfikowanie nieścisłości, ogólny przegląd jakość istniejących danych, usuwanie duplikatów i segmentację kolumn. Niezwykłe istotne jest też zwracanie uwagi na dane których wartości są powyżej lub poniżej ustalonych wcześniej progów (ekstrema). (M. Smith (2018) s. 80)
- Właściwa analiza danych
Istnieje kilka metod, które można wykorzystać do tego celu, na przykład data mining, business intelligence, wizualizacja danych lub badania eksploracyjne. Ta ostatnia metoda jest sposobem analizowania zbiorów informacji w celu określenia ich odrębnych cech. W ten sposób dane mogą zostać wykorzystane do przetestowania pierwotnej hipotezy. Statystyki opisowe to kolejna metoda analizy zebranych informacji. Dane są badane, aby znaleźć najważniejsze ich cechy. W statystykach opisowych analitycy używają kilku podstawowych narzędzi - można użyć średniej lub średniej z zestawu liczb. Pomaga to określić ogólny trend aczkolwiek nie zapewnia to dużej dokładności przy ocenie ogólnego obrazu zebranych danych. W tej fazie ma miejsce również modelowanie i tworzenie formuł matematycznych - stosowane są w celu identyfikacji zależności między zmiennymi, takich jak korelacja lub przyczynowość. Ogólnie rzecz biorąc, można opracować modele do oceny konkretnej zmiennej w zbiorze danych na podstawie innych zmiennych z pewnym błędem resztkowym w zależności od dokładności modelu (tj. Dane = Model + Błąd)
- Raportowanie i dystrybucja wyników
Ta faza polega na ustalaniu w jakiej formie przekazywać wyniki. Analityk może rozważyć róże techniki wizualizacji danych, aby w sposób wyraźnym i skuteczny przekazać wnioski z analizy odbiorcom. Wizualizacja danych wykorzystuje formy graficzne jak wykresy i tabele. Tabele są przydatne dla użytkownika, który może wyszukiwać konkretne rekordy, podczas gdy wykresy (np. Wykresy słupkowe lub liniowe) dają spojrzenie ilościowych na zbiór analizowanych danych (F. Provest, T. Fawcett (2014) s. 47-51)
Analizy jakościowe i ilościowe
Celem analiz jest generowanie wiedzy o danym zjawisku, jednak charakter tej wiedzy jest różny i odzwierciedla różne potrzeby badawcze. Niektóre badania mają na celu standaryzację i systematyczne porównania, inne dążą do szczegółowego określenia danego zjawiska lub zaistniałej sytuacji. Te różne intencje wymagają różnych podejść i metod, które zazwyczaj są klasyfikowane jako ilościowe lub jakościowe.
Analizy ilościowe zazwyczaj badają związek między dwoma zdarzeniami, gdzie jedno ze zdarzeń jest konsekwencją drugiego. Aby sprawdzić przyczynowość lub związek między 2 zdarzeniami analitycy ilościowi będą starali się utrzymać poziom kontroli nad różnymi zmiennymi, które mogą wpływać na relacje między zdarzeniami. Dane ilościowe są często gromadzone w ankietach i kwestionariuszach, które są starannie opracowywane i ustrukturyzowane w celu dostarczenia danych liczbowych, które można zbadać statystycznie, a uzyskane wyniki, można uogólnić do większej populacji.
Jakościowa analiza danych zawiera zakres procesów i procedur, dzięki którym przechodzimy od zgromadzonych danych jakościowych do wyjaśnienia, zrozumienia lub interpretacji zjawisk które badamy. Jakościowa analiza danych zazwyczaj opiera się na filozofii interpretacyjnej (U. Flick (2013) s. 3-5)
Analiza danych — artykuły polecane |
Drzewo decyzyjne — Hipoteza — Rzetelność informacji — Procesy poznawcze — Badanie pilotażowe — Model ekonometryczny — 7 narzędzi TQC — Diagram procesu — Metoda pomiarowa |
Bibliografia
- Flick U. (2013), The SAGE Handbook of Qualitative Data Analysis, SAGE
- Provest F., Fawcett T. (2014), Analiza danych w biznesie. Sztuka podejmowania skutecznych decyzji, Helion, Gliwice
- Smith M. (2018), Statistical Analysis Handbook, The Winchelsea Press, Drumlin Security Ltd
Autor: Szymon Wszołek