Metoda Warda: Różnice pomiędzy wersjami

Z Encyklopedia Zarządzania
mNie podano opisu zmian
m (Dodanie TL;DR)
Linia 14: Linia 14:
}}
}}
'''Metoda Warda''' Jest tradycyjną i relatywnie najczęściej wykorzystywaną metodą dokonywania analizy skupień. Jest ona efektywna w przypadku gdy liczba jednostek nie jest bardzo liczna (w przypadku metod hierarchicznych rzędu dziesiątek a podziałowych tysięcy jednostek), koncentracje są sferyczne, separowalne, w tych danych nie są wykorzystywane liczne wartości nietypowe i ogólnie określona jest faktyczna liczba skupień (K. Migdal-Najman, K. Najman 2013, s. 180).
'''Metoda Warda''' Jest tradycyjną i relatywnie najczęściej wykorzystywaną metodą dokonywania analizy skupień. Jest ona efektywna w przypadku gdy liczba jednostek nie jest bardzo liczna (w przypadku metod hierarchicznych rzędu dziesiątek a podziałowych tysięcy jednostek), koncentracje są sferyczne, separowalne, w tych danych nie są wykorzystywane liczne wartości nietypowe i ogólnie określona jest faktyczna liczba skupień (K. Migdal-Najman, K. Najman 2013, s. 180).
==TL;DR==
Metoda Warda jest popularną metodą analizy skupień, która tworzy strukturę drzewiastą na podstawie minimalizacji wariancji. Jest skuteczna w przypadku małej liczby jednostek i sferycznych, separowalnych koncentracji danych. Metoda ta jest skuteczna w odtwarzaniu realnej struktury danych i tworzeniu skupień o zbliżonych liczebnościach. Wykorzystuje różne miary odległości, takie jak odległość euklidesowa i Czebyszewa. Standaryzowanie zmiennych jest konieczne przed zastosowaniem metody. Metoda Warda jest uważana za jedną z najlepszych metod analizy skupień.


== Metoda Warda ==
== Metoda Warda ==

Wersja z 09:20, 24 wrz 2023

Metoda Warda
Polecane artykuły

Metoda Warda Jest tradycyjną i relatywnie najczęściej wykorzystywaną metodą dokonywania analizy skupień. Jest ona efektywna w przypadku gdy liczba jednostek nie jest bardzo liczna (w przypadku metod hierarchicznych rzędu dziesiątek a podziałowych tysięcy jednostek), koncentracje są sferyczne, separowalne, w tych danych nie są wykorzystywane liczne wartości nietypowe i ogólnie określona jest faktyczna liczba skupień (K. Migdal-Najman, K. Najman 2013, s. 180).

TL;DR

Metoda Warda jest popularną metodą analizy skupień, która tworzy strukturę drzewiastą na podstawie minimalizacji wariancji. Jest skuteczna w przypadku małej liczby jednostek i sferycznych, separowalnych koncentracji danych. Metoda ta jest skuteczna w odtwarzaniu realnej struktury danych i tworzeniu skupień o zbliżonych liczebnościach. Wykorzystuje różne miary odległości, takie jak odległość euklidesowa i Czebyszewa. Standaryzowanie zmiennych jest konieczne przed zastosowaniem metody. Metoda Warda jest uważana za jedną z najlepszych metod analizy skupień.

Metoda Warda

Wykorzystując metodę Warda osiągnąć możemy skupienia o zbliżonych liczebnościach, których cechą charakterystyczną jest minimalna wariancja i na tej podstawie również relatywnie często możemy wykorzystywać tę metodę do klasyfikacji jednostek przestrzennych (K. Filipiak 2006, s. 57).

Metoda Warda jest jedną z kilku aglomeracyjnych metod i sposobem grupowania, jak również metodą hierarchiczną, która prowadzi do stworzenia z wielu części analizowanego zbioru struktury drzewiastej (w wersji poziomej nazywana wykresem drzewiastym), natomiast (w pionowej sopelkowym). Na tej podstawie efekty pracy algorytmu ukazywane są w postaci drzewa, które pokazuje następne etapy tworzonej analizy. W taki sposób możemy osiągnąć tzw. ostateczną segmentację składającą się z zorganizowanej kombinacji podziałów na segmenty.

W odniesieniu do skuteczności odtworzenia realnej struktury danych zalecane jest wykorzystanie metody Warda. Bazuje ona na regule minimalizacji wariancji. W kontekście metod z tej grupy nie jest konieczne określenie poprzedniego założenia w odniesieniu do wynikowej liczby skupień – na koniec analizy wykres może być odcięty na adekwatnej wysokości i w tym momencie zinterpretowany (M. Lotko, A. Lotko 2015, s. 6).

  1. Jest określana jako bardzo skuteczna, natomiast posiadająca inklinację do formułowania skupień o relatywnie małej wielkości. W tej metodzie odległość pomiędzy skupieniami określana jest jako różnica między sumami kwadratów odchyleń konkretnych jednostek od środka ciężkości grup, do których punkty te są przypisywane. Minimum rozróżnienia wartości cech, będących kryterium segmentacji jest kryterium grupowania jednostek w kolejne skupienia, na podstawie wartości średnich skupień formułowanych w następnych etapach (M. Adamowicz, P. Janulewicz 2012, s. 24).
Rysunek 1. Aglomeracja metodą Warda. (A. Wałęga, S. Krzanowski, K. Chmielowski 2009)
  1. Znacznie różni się od pozostałych, ponieważ odległości pomiędzy skupieniami opisywane są na podstawie analizy wariancji. Jest to metoda polegająca na minimalizacji sumy kwadratów odchyleń wewnątrz skupień. Na każdym poziomie z wszelkich dostępnych i możliwych do łączenia par skupień dokonuje się wyboru tej, która w efekcie łączenia daje skupienie o minimalnym rozróżnieniu Miarą zróżnicowania skupienia w odniesieniu do wartości średnich jest ESS (Error Sum of Squares), które nazywane jest także błędem sumy kwadratów (A. Wałęga, S. Krzanowski, K. Chmielowski 2009, s. 73).

ESS jest opisane wzorem

Gdzie

- Wartość zmiennej będącej kryterium segmentacji dla i-tego obiektu

- Liczba obiektów w skupieniu

Efektywność metody Warda

Na bazie własności teoretycznych hierarchicznych metod aglomeracyjnych, jak również efektów badań symulacyjnych Grabiński i Sokołowski określili że najlepszą metodą jest metoda Warda, której efektywność wykrywania faktycznej struktury danych jest mniej więcej 40% większa niż dalsza w kolejności metoda najdalszego sąsiedztwa. Do analogicznych wniosków doszedł też Milligan. Metoda Warda jest dostępna w popularnie dziś wykorzystywanych komputerowych pakietach statystycznych. Statistica, przy wykorzystaniu której dokonywano analizy na potrzeby niniejszego opracowania, pozwala na dokonanie wyboru – jako kryterium podobieństwa obiektów w odniesieniu do siedmiu miar odległości, tj. kwadrat odległości euklidesowej, odległość euklidesowa, odległość miejska, odległość Czebyszewa, odległość potęgowa, niezgodność procentowa oraz 1-r Pearsona. Przegląd wielu pozycji literatury i znajomość znajdujących się w niej opinii ekspertów umożliwia zauważyć, że w odniesieniu do metody Warda, z siedmiu miar odległości, w badaniach empirycznych najczęściej wykorzystywane są dwie pierwsze. W zwyczajowym ujęciu, opisanym przez Warda, zwracana jest uwaga na wymóg kwadratu odległości euklidesowej do oceny podobieństwa obiektów. Warto zauważyć, że pomimo, iż inne miary odległości nie mają interpretacji geometrycznej to w ujęciu praktycznym relatywnie często alternatywnie używana jest odległość euklidesowa (R. Klóska 2017, s. 147).

  • Oblicza się ja następującymi wzorami:

Odległość Czebyszewa

Odległość Euklidesowa

  • Jest to najczęściej wybierana metryka, jako najbardziej „naturalna”

Odległość miejska (Manhattan)

  • W tej metryce sfera jest powierzchnią kostki

Odległość euklidesowa do kwadratu

Aby było możliwe korzystać z wyżej opisanych metryk, różne zmienne muszą być porównywalne. Z tego powodu powinno się dokonać wstępnego standaryzowania zmiennych. W praktyce bardzo często standaryzuje się zmienne na podstawie wzoru: gdzie to średnia, zaś to odchylenie standardowe zmiennej w próbie. Dokonanie wyboru właściwej metryki pozwala na wykreowanie kwadratowej macierzy odległości. Macierz taka jest symetryczna oraz na głównej przekątnej ma zera (D. Pawlak 2014/2015).

Bibliografia

Autor: Magdalena Mikołajek

.