Analiza skupień

Analiza skupień
Polecane artykuły


Analiza skupień (grupowanie, klasteryzacja), (ang. data clustering, cluster analysis) jest to pojęcie z obszaru eksploracji danych, a także uczenia maszynowego, a wywodzące się bezpośrednio z klasyfikacji bezwzorcowej. Analiza skupień jest sposobem klasyfikacji bez nadzoru (ang. unsupervised learning). Jej celem jest dokonywanie grupowania elementów w jednakowe klasy. Fundamentem takiego rodzaju grupowania w znacznej ilości stworzonych algorytmów jest po prostu podobieństwo między danymi elementami.

Działanie

Badacze wielu dyscyplin i dziedzin często napotykają problem z odpowiednim zorganizowaniem uzyskanych dzięki pomiarom danych w grupy bądź struktury, których budowa i rozmieszczenie mają sens. Pojęcie analizy skupień zostało wprowadzone po raz pierwszy w pracy Tryon w 1939 roku. Jej ideą jest stworzenie odpowiednich grup, np. ludzi, tak aby wyodrębnić jednostki, które są do siebie podobne pod różnymi względami. Aby dokonać takiego grupowania, wykorzystuje się pojęcia podobieństwa wewnętrznego i niepodobieństwa zewnętrznego. Polega to na przyporządkowaniu danych elementów do grup, w taki sposób, aby jednostki znajdujące się w określonej grupie były do siebie podobne na odpowiednim poziomie, a zarazem aby stworzone grupy były jak najbardziej różne od siebie. Innymi słowy, analiza skupień jest pewnego rodzaju narzędziem pozwalającym dokonać analizy uzyskanych danych, dzięki czemu są one dzielone na odpowiednie grupy. Analiza skupień na ogół jest wykorzystywana do wyszukiwania określonych struktur w uzyskanych danych bez pokazywania dlaczego dokonała akurat takiego podziału. Nie podaje nam interpretacji bądź wyjaśnienia.

Główne cele dokonywania grupowania

Grupowanie pozwala nam rozwiązać problem odkrywania struktury w danych oraz dokonywania uogólnienia. Dobrze przeprowadzone grupowanie charakteryzuje się na wyodrębnieniem odpowiednich grup. Celami grupowania są między innymi:

  • odkrycie nieznanej jeszcze struktury danych
  • zdobycie jednorodnych przedmiotów badania, które pozwalają na oddzielenie od nich znaczących, charakterystycznych cech
  • pomniejszenie ogromnej ilości danych do kilku fundamentalnych struktur, które pozwalają na dokonanie kolejnych etapów przeprowadzanej analizy
  • dokonanie porównania elementów, które posiadają więcej niż jedną cechę wspólną

Podział algorytmów dokonujących podziału na grupy

Stworzony algorytm, który dokonuje analizy skupień dzielony jest na kilka fundamentalnych rodzajów.

  • metody hierarchiczne, w których algorytm kreuje dla danych grup pewnego rodzaju hierarchię i na jej podstawie dokonuje klasyfikacji. Dokonując takiej klasyfikacji algorytm zaczyna swoją pracę od stworzenia takiego podziału, w którym każdy element tworzy samodzielne skupienie, a kończy na wykreowaniu takiego podziału, w którym wszystkie elementy należą do jednego skupienia. Można tu wyodrębnić dwa rodzaje (E. Zalewskia 2017 s. 236).
  1. Pierwszym z nich są procedury aglomeracyjne (ang. agglomerative), które tworzą macierz związaną z podobieństwem klasyfikowanych elementów, a następnie łączą w grupy elementy, które są do siebie jak najbardziej podobne.
  2. Drugim rodzajem są natomiast procedury deglomeracyjne (ang. divisive), które grupują wszystkie elementy, a w kolejnym etapie stworzone już grupy dzieli na jeszcze mniejsze i bardziej jednorodne struktury do chwili, gdy każdy element stanowi osobną grupę.
  • grupa metod k-średnich (ang. k-means). W tym przypadku grupowanie polega na początkowym dokonaniu podziału elementów na z góry przyjętą ilość grup. Dokonany wówczas podział jest następnie tak modyfikowany, że część elementów jest przegrupowywana do innych segmentów, tak aby osiągnąć jak najmniejszą wariancję wewnątrz każdej z nich. Podstawowymi algorytmami są tutaj (E. Zalewskia 2017 s. 236):
  1. wybór środków
  2. przypisanie punktów do najbliższych centroidów
  3. powtarzanie algorytmu aż do osiągnięcia kryterium zbieżności
  4. wyliczenie nowych środków skupień.
  • metody rozmytej analizy skupień (ang. fuzzy clustering). Wśród nich najpopularniejszą jest metoda c-średnich. Te metody pozwalają na pogrupowanie elementów na więcej niż jedną strukturę (E. Zalewskia 2017 s. 236).

Przykłady

Z uporządkowaniem danych mamy do czynienia prawie na każdym kroku. Najprostszym, a zarazem najlepiej zrozumiałym przykładem mogą być sklepy typu hipermarket. W wyżej wymienionych niemal zawsze towary na stoiskach posegregowane są w odpowiedni sposób - różne rodzaje pieczywa są usytuowane w jednym miejscu. To samo dotyczy różnych rodzajów mięs lub warzyw itd.. Na świecie występuje wiele przykładów, w których tego rodzaju klasyfikacja odgrywa bardzo ważną rolę w danej dziedzinie. Biolodzy chcąc dokonać odpowiedniego przydzielenia do grupy nowo odkrytego gatunku zwierzęcia, muszą najpierw dokonać odpowiedniej analizy. Dopiero ona pozwoli im na dobranie odpowiedniej grupy dla nowego gatunku, w której będą znajdowały się zwierzęta podobne do niego.

Innym przykładem zastosowania technik grupowania może być medycyna. W tym przypadku grupowane są choroby, ich symptomy, a także metody leczenia. Dzięki temu można wyciągnąć wiele istotnych wniosków, które pozwalają na rozwój medycyny.

Bibliografia

Autor: Marek Żurkowski

.