Analiza skupień: Różnice pomiędzy wersjami
m (→Bibliografia: Clean up) |
m (cleanup bibliografii i rotten links) |
||
(Nie pokazano 4 wersji utworzonych przez 2 użytkowników) | |||
Linia 1: | Linia 1: | ||
'''Analiza skupień''' (''grupowanie, klasteryzacja''), (ang. ''data clustering, cluster analysis'') jest to pojęcie z obszaru eksploracji danych, a także uczenia maszynowego, a wywodzące się bezpośrednio z klasyfikacji bezwzorcowej. Analiza skupień jest sposobem klasyfikacji bez nadzoru (ang. unsupervised learning). Jej celem jest dokonywanie grupowania elementów w jednakowe klasy. Fundamentem takiego rodzaju grupowania w znacznej ilości stworzonych algorytmów jest po prostu podobieństwo między danymi elementami. | '''Analiza skupień''' (''grupowanie, klasteryzacja''), (ang. ''data clustering, cluster analysis'') jest to pojęcie z obszaru eksploracji danych, a także uczenia maszynowego, a wywodzące się bezpośrednio z klasyfikacji bezwzorcowej. Analiza skupień jest sposobem klasyfikacji bez nadzoru (ang. unsupervised learning). Jej celem jest dokonywanie grupowania elementów w jednakowe klasy. Fundamentem takiego rodzaju grupowania w znacznej ilości stworzonych algorytmów jest po prostu podobieństwo między danymi elementami. | ||
Linia 21: | Linia 6: | ||
==Działanie== | ==Działanie== | ||
Badacze wielu dyscyplin i dziedzin często napotykają problem z odpowiednim zorganizowaniem uzyskanych dzięki pomiarom danych w grupy bądź struktury, których budowa i rozmieszczenie mają sens. Pojęcie analizy skupień zostało wprowadzone po raz pierwszy w pracy Tryon w 1939 roku. Jej ideą jest stworzenie odpowiednich grup, np. ludzi, tak aby wyodrębnić jednostki, które są do siebie podobne pod różnymi względami. Aby dokonać takiego grupowania, wykorzystuje się pojęcia podobieństwa wewnętrznego i niepodobieństwa zewnętrznego. Polega to na przyporządkowaniu danych elementów do grup, w taki sposób, aby jednostki znajdujące się w określonej grupie były do siebie podobne na odpowiednim poziomie, a zarazem aby stworzone grupy były jak najbardziej różne od siebie. Innymi słowy, analiza skupień jest pewnego rodzaju narzędziem pozwalającym dokonać analizy uzyskanych danych, dzięki czemu są one dzielone na odpowiednie grupy. Analiza skupień na ogół jest wykorzystywana do wyszukiwania określonych struktur w uzyskanych danych bez pokazywania dlaczego dokonała akurat takiego podziału. Nie podaje nam interpretacji bądź wyjaśnienia. | Badacze wielu dyscyplin i dziedzin często napotykają problem z odpowiednim zorganizowaniem uzyskanych dzięki pomiarom danych w grupy bądź struktury, których budowa i rozmieszczenie mają sens. Pojęcie analizy skupień zostało wprowadzone po raz pierwszy w pracy Tryon w 1939 roku. Jej ideą jest stworzenie odpowiednich grup, np. ludzi, tak aby wyodrębnić jednostki, które są do siebie podobne pod różnymi względami. Aby dokonać takiego grupowania, wykorzystuje się pojęcia podobieństwa wewnętrznego i niepodobieństwa zewnętrznego. Polega to na przyporządkowaniu danych elementów do grup, w taki sposób, aby jednostki znajdujące się w określonej grupie były do siebie podobne na odpowiednim poziomie, a zarazem aby stworzone grupy były jak najbardziej różne od siebie. Innymi słowy, analiza skupień jest pewnego rodzaju narzędziem pozwalającym dokonać analizy uzyskanych danych, dzięki czemu są one dzielone na odpowiednie grupy. Analiza skupień na ogół jest wykorzystywana do wyszukiwania określonych struktur w uzyskanych danych bez pokazywania dlaczego dokonała akurat takiego podziału. Nie podaje nam interpretacji bądź wyjaśnienia. | ||
==Główne cele dokonywania grupowania== | ==Główne cele dokonywania grupowania== | ||
Linia 29: | Linia 13: | ||
* pomniejszenie ogromnej ilości danych do kilku fundamentalnych struktur, które pozwalają na dokonanie kolejnych etapów przeprowadzanej analizy | * pomniejszenie ogromnej ilości danych do kilku fundamentalnych struktur, które pozwalają na dokonanie kolejnych etapów przeprowadzanej analizy | ||
* dokonanie porównania elementów, które posiadają więcej niż jedną cechę wspólną | * dokonanie porównania elementów, które posiadają więcej niż jedną cechę wspólną | ||
<google>n</google> | |||
==Podział algorytmów dokonujących podziału na grupy== | ==Podział algorytmów dokonujących podziału na grupy== | ||
Linia 46: | Linia 32: | ||
Innym przykładem zastosowania technik grupowania może być medycyna. W tym przypadku grupowane są choroby, ich symptomy, a także metody leczenia. Dzięki temu można wyciągnąć wiele istotnych wniosków, które pozwalają na rozwój medycyny. | Innym przykładem zastosowania technik grupowania może być medycyna. W tym przypadku grupowane są choroby, ich symptomy, a także metody leczenia. Dzięki temu można wyciągnąć wiele istotnych wniosków, które pozwalają na rozwój medycyny. | ||
{{infobox5|list1={{i5link|a=[[Socjometria]]}} — {{i5link|a=[[Metody taksonomiczne]]}} — {{i5link|a=[[Typologia]]}} — {{i5link|a=[[Populacja]]}} — {{i5link|a=[[Drzewo decyzyjne]]}} — {{i5link|a=[[Sieci neuronowe]]}} — {{i5link|a=[[Procesy poznawcze]]}} — {{i5link|a=[[Analiza morfologiczna]]}} — {{i5link|a=[[Skala nominalna]]}} }} | |||
==Bibliografia== | ==Bibliografia== | ||
<noautolinks> | <noautolinks> | ||
* Buszkowska E. (2016) [https://wnus.edu.pl/frfu/file/article/view/10411.pdf | * Buszkowska E. (2016), ''[https://wnus.edu.pl/frfu/file/article/view/10411.pdf Zastosowanie analizy skupień do określenia ram czasowych ostatniego kryzysu finansowego]'', Finanse, Rysnki Finansowe, Ubezpieczenia nr 79 | ||
* Dudek A., Walesiak M. (2009) ''Ocena wybranych procedur analizy skupień dla danych porządkowych'', Prace naukowe Uniwersytetu Ekonomicznego we Wrocławiu, nr 47 | * Dudek A., Walesiak M. (2009), ''Ocena wybranych procedur analizy skupień dla danych porządkowych'', Prace naukowe Uniwersytetu Ekonomicznego we Wrocławiu, nr 47 | ||
* Wilk J (2006) [ | * Wilk J. (2006), ''[http://bazekon.icm.edu.pl/bazekon/element/bwmeta1.element.ekon-element-000171218935 Problemy w klasyfikacji obiektów symbolicznych: symbole miary odległości]'', Zeszyty Naukowe / Akademia Ekonomiczna w Poznaniu, nr 71 | ||
* Zalewska E. (2017) [https://www.dbc.wroc.pl/Content/37195/Zalewska_Analizy_Skupien_i_Metod_Porzadkowania_Liniowego_2017.pdf | * Zalewska E. (2017), ''[https://www.dbc.wroc.pl/Content/37195/Zalewska_Analizy_Skupien_i_Metod_Porzadkowania_Liniowego_2017.pdf Zastosowanie analizy skupień i metody porządkowania liniowego w ocenie polskiego szkolnictwa wyższego]'', Prace naukowe Uniwersytetu Ekonomicznego we Wrocławiu, nr 469 | ||
</noautolinks> | </noautolinks> | ||
{{a|Marek Żurkowski}}. | {{a|Marek Żurkowski}}. |
Aktualna wersja na dzień 00:06, 12 sty 2024
Analiza skupień (grupowanie, klasteryzacja), (ang. data clustering, cluster analysis) jest to pojęcie z obszaru eksploracji danych, a także uczenia maszynowego, a wywodzące się bezpośrednio z klasyfikacji bezwzorcowej. Analiza skupień jest sposobem klasyfikacji bez nadzoru (ang. unsupervised learning). Jej celem jest dokonywanie grupowania elementów w jednakowe klasy. Fundamentem takiego rodzaju grupowania w znacznej ilości stworzonych algorytmów jest po prostu podobieństwo między danymi elementami.
TL;DR
Analiza skupień to metoda klasyfikacji bez nadzoru, polegająca na grupowaniu elementów w jednakowe klasy na podstawie podobieństwa między nimi. Celami grupowania są odkrywanie struktury danych, uogólnianie, porównywanie i redukowanie ilości danych. Istnieją różne rodzaje algorytmów, takich jak metody hierarchiczne, grupa metod k-średnich i metody rozmytej analizy skupień. Przykłady zastosowania analizy skupień to klasyfikowanie towarów w sklepach i grupowanie chorób w medycynie.
Działanie
Badacze wielu dyscyplin i dziedzin często napotykają problem z odpowiednim zorganizowaniem uzyskanych dzięki pomiarom danych w grupy bądź struktury, których budowa i rozmieszczenie mają sens. Pojęcie analizy skupień zostało wprowadzone po raz pierwszy w pracy Tryon w 1939 roku. Jej ideą jest stworzenie odpowiednich grup, np. ludzi, tak aby wyodrębnić jednostki, które są do siebie podobne pod różnymi względami. Aby dokonać takiego grupowania, wykorzystuje się pojęcia podobieństwa wewnętrznego i niepodobieństwa zewnętrznego. Polega to na przyporządkowaniu danych elementów do grup, w taki sposób, aby jednostki znajdujące się w określonej grupie były do siebie podobne na odpowiednim poziomie, a zarazem aby stworzone grupy były jak najbardziej różne od siebie. Innymi słowy, analiza skupień jest pewnego rodzaju narzędziem pozwalającym dokonać analizy uzyskanych danych, dzięki czemu są one dzielone na odpowiednie grupy. Analiza skupień na ogół jest wykorzystywana do wyszukiwania określonych struktur w uzyskanych danych bez pokazywania dlaczego dokonała akurat takiego podziału. Nie podaje nam interpretacji bądź wyjaśnienia.
Główne cele dokonywania grupowania
Grupowanie pozwala nam rozwiązać problem odkrywania struktury w danych oraz dokonywania uogólnienia. Dobrze przeprowadzone grupowanie charakteryzuje się na wyodrębnieniem odpowiednich grup. Celami grupowania są między innymi:
- odkrycie nieznanej jeszcze struktury danych
- zdobycie jednorodnych przedmiotów badania, które pozwalają na oddzielenie od nich znaczących, charakterystycznych cech
- pomniejszenie ogromnej ilości danych do kilku fundamentalnych struktur, które pozwalają na dokonanie kolejnych etapów przeprowadzanej analizy
- dokonanie porównania elementów, które posiadają więcej niż jedną cechę wspólną
Podział algorytmów dokonujących podziału na grupy
Stworzony algorytm, który dokonuje analizy skupień dzielony jest na kilka fundamentalnych rodzajów.
- metody hierarchiczne, w których algorytm kreuje dla danych grup pewnego rodzaju hierarchię i na jej podstawie dokonuje klasyfikacji. Dokonując takiej klasyfikacji algorytm zaczyna swoją pracę od stworzenia takiego podziału, w którym każdy element tworzy samodzielne skupienie, a kończy na wykreowaniu takiego podziału, w którym wszystkie elementy należą do jednego skupienia. Można tu wyodrębnić dwa rodzaje (E. Zalewskia 2017 s. 236).
- Pierwszym z nich są procedury aglomeracyjne (ang. agglomerative), które tworzą macierz związaną z podobieństwem klasyfikowanych elementów, a następnie łączą w grupy elementy, które są do siebie jak najbardziej podobne.
- Drugim rodzajem są natomiast procedury deglomeracyjne (ang. divisive), które grupują wszystkie elementy, a w kolejnym etapie stworzone już grupy dzieli na jeszcze mniejsze i bardziej jednorodne struktury do chwili, gdy każdy element stanowi osobną grupę.
- grupa metod k-średnich (ang. k-means). W tym przypadku grupowanie polega na początkowym dokonaniu podziału elementów na z góry przyjętą ilość grup. Dokonany wówczas podział jest następnie tak modyfikowany, że część elementów jest przegrupowywana do innych segmentów, tak aby osiągnąć jak najmniejszą wariancję wewnątrz każdej z nich. Podstawowymi algorytmami są tutaj (E. Zalewskia 2017 s. 236):
- wybór środków
- przypisanie punktów do najbliższych centroidów
- powtarzanie algorytmu aż do osiągnięcia kryterium zbieżności
- wyliczenie nowych środków skupień.
- metody rozmytej analizy skupień (ang. fuzzy clustering). Wśród nich najpopularniejszą jest metoda c-średnich. Te metody pozwalają na pogrupowanie elementów na więcej niż jedną strukturę (E. Zalewskia 2017 s. 236).
Przykłady
Z uporządkowaniem danych mamy do czynienia prawie na każdym kroku. Najprostszym, a zarazem najlepiej zrozumiałym przykładem mogą być sklepy typu hipermarket. W wyżej wymienionych niemal zawsze towary na stoiskach posegregowane są w odpowiedni sposób - różne rodzaje pieczywa są usytuowane w jednym miejscu. To samo dotyczy różnych rodzajów mięs lub warzyw itd.. Na świecie występuje wiele przykładów, w których tego rodzaju klasyfikacja odgrywa bardzo ważną rolę w danej dziedzinie. Biolodzy chcąc dokonać odpowiedniego przydzielenia do grupy nowo odkrytego gatunku zwierzęcia, muszą najpierw dokonać odpowiedniej analizy. Dopiero ona pozwoli im na dobranie odpowiedniej grupy dla nowego gatunku, w której będą znajdowały się zwierzęta podobne do niego.
Innym przykładem zastosowania technik grupowania może być medycyna. W tym przypadku grupowane są choroby, ich symptomy, a także metody leczenia. Dzięki temu można wyciągnąć wiele istotnych wniosków, które pozwalają na rozwój medycyny.
Analiza skupień — artykuły polecane |
Socjometria — Metody taksonomiczne — Typologia — Populacja — Drzewo decyzyjne — Sieci neuronowe — Procesy poznawcze — Analiza morfologiczna — Skala nominalna |
Bibliografia
- Buszkowska E. (2016), Zastosowanie analizy skupień do określenia ram czasowych ostatniego kryzysu finansowego, Finanse, Rysnki Finansowe, Ubezpieczenia nr 79
- Dudek A., Walesiak M. (2009), Ocena wybranych procedur analizy skupień dla danych porządkowych, Prace naukowe Uniwersytetu Ekonomicznego we Wrocławiu, nr 47
- Wilk J. (2006), Problemy w klasyfikacji obiektów symbolicznych: symbole miary odległości, Zeszyty Naukowe / Akademia Ekonomiczna w Poznaniu, nr 71
- Zalewska E. (2017), Zastosowanie analizy skupień i metody porządkowania liniowego w ocenie polskiego szkolnictwa wyższego, Prace naukowe Uniwersytetu Ekonomicznego we Wrocławiu, nr 469
Autor: Marek Żurkowski
.