Metoda Warda
Metoda Warda Jest tradycyjną i relatywnie najczęściej wykorzystywaną metodą dokonywania analizy skupień. Jest ona efektywna w przypadku gdy liczba jednostek nie jest bardzo liczna (w przypadku metod hierarchicznych rzędu dziesiątek a podziałowych tysięcy jednostek), koncentracje są sferyczne, separowalne, w tych danych nie są wykorzystywane liczne wartości nietypowe i ogólnie określona jest faktyczna liczba skupień (K. Migdal-Najman, K. Najman 2013, s. 180).
- Example.jpg
Podpis1
- Example.jpg
Podpis2
Metoda Warda
Wykorzystując metodę Warda osiągnąć możemy skupienia o zbliżonych liczebnościach, których cechą charakterystyczną jest minimalna wariancja i na tej podstawie również relatywnie często możemy wykorzystywać tę metodę do klasyfikacji jednostek przestrzennych (K. Filipiak 2006, s. 57).
Metoda Warda jest jedną z kilku aglomeracyjnych metod i sposobem grupowania, jak również metodą hierarchiczną, która prowadzi do stworzenia z wielu części analizowanego zbioru struktury drzewiastej (w wersji poziomej nazywana wykresem drzewiastym), natomiast (w pionowej sopelkowym). Na tej podstawie efekty pracy algorytmu ukazywane są w postaci drzewa, które pokazuje następne etapy tworzonej analizy. W taki sposób możemy osiągnąć tzw. ostateczną segmentację składającą się z zorganizowanej kombinacji podziałów na segmenty.
W odniesieniu do skuteczności odtworzenia realnej struktury danych zalecane jest wykorzystanie metody Warda. Bazuje ona na regule minimalizacji wariancji. W kontekście metod z tej grupy nie jest konieczne określenie poprzedniego założenia w odniesieniu do wynikowej liczby skupień – na koniec analizy wykres może być odcięty na adekwatnej wysokości i w tym momencie zinterpretowany (M. Lotko, A. Lotko 2015, s. 6).
- Jest określana jako bardzo skuteczna, natomiast posiadająca inklinację do formułowania skupień o relatywnie małej wielkości. W tej metodzie odległość pomiędzy skupieniami określana jest jako różnica między sumami kwadratów odchyleń konkretnych jednostek od środka ciężkości grup, do których punkty te są przypisywane. Minimum rozróżnienia wartości cech, będących kryterium segmentacji jest kryterium grupowania jednostek w kolejne skupienia, na podstawie wartości średnich skupień formułowanych w następnych etapach (M. Adamowicz, P. Janulewicz 2012, s. 24).
- Znacznie różni się od pozostałych, ponieważ odległości pomiędzy skupieniami opisywane są na podstawie analizy wariancji. Jest to metoda polegająca na minimalizacji sumy kwadratów odchyleń wewnątrz skupień. Na każdym poziomie z wszelkich dostępnych i możliwych do łączenia par skupień dokonuje się wyboru tej, która w efekcie łączenia daje skupienie o minimalnym rozróżnieniu Miarą zróżnicowania skupienia w odniesieniu do wartości średnich jest ESS (Error Sum of Squares), które nazywane jest także błędem sumy kwadratów (A. Wałęga, S. Krzanowski, K. Chmielowski 2009, s. 73).
ESS jest opisane wzorem
Gdzie
- Wartość zmiennej będącej kryterium segmentacji dla i-tego obiektu
- Liczba obiektów w skupieniu
Efektywność metody Warda
Na bazie własności teoretycznych hierarchicznych metod aglomeracyjnych, jak również efektów badań symulacyjnych Grabiński i Sokołowski określili że najlepszą metodą jest metoda Warda, której efektywność wykrywania faktycznej struktury danych jest mniej więcej 40% większa niż dalsza w kolejności metoda najdalszego sąsiedztwa. Do analogicznych wniosków doszedł też Milligan. Metoda Warda jest oprogramowana w popularnie dziś wykorzystywanych komputerowych pakietach statystycznych. Statistica, przy wykorzystaniu której dokonywano analizy na potrzeby niniejszego opracowania, pozwala na dokonanie wyboru – jako kryterium podobieństwa obiektów w odniesieniu do siedmiu miar odległości, tj. kwadrat odległości euklidesowej, odległość euklidesowa, odległość miejska, odległość Czebyszewa, odległość potęgowa, niezgodność procentowa oraz 1-r Pearsona. Przegląd wielu pozycji literatury i znajomość znajdujących się w niej opinii ekspertów umożliwia zauważyć, że w odniesieniu do metody Warda, z siedmiu miar odległości, w badaniach empirycznych najczęściej wykorzystywane są dwie pierwsze. W zwyczajowym ujęciu, opisanym przez Warda, zwracana jest uwaga na wymóg kwadratu odległości euklidesowej do oceny podobieństwa obiektów. Warto zauważyć, że pomimo, iż inne miary odległości nie mają interpretacji geometrycznej to w ujęciu praktycznym relatywnie często alternatywnie używana jest odległość euklidesowa (R. Klóska 2017, s. 147).
Bibliografia
- Adamowicz M. Janulewicz P. (2012). Wykorzystanie metod wielowymiarowych w określeniu pozycji konkurencyjnej gminy na przykładzie województwa lubelskiego, "Metody Ilościowe w Badaniach Ekonomicznych", nr 1.
- Filipiak K. (2006), Metody statystyczne stosowane do oceny regionalnego zróżnicowania rolnictwa, "Raporty pib", nr 3.
- Klóska R. (2017), Proinnowacyjny rozwój regionalny w Polsce jako kryterium analizy skupień, "Ekonomiczne Problemy Usług", nr 4.
- Lotko M. Lotko A. (2015). Zastosowanie analizy skupień do oceny zagrożeń zawodowych pracowników wiedzy i ich postaw wobec charakteru pracy, "Eksploatacja i Niezawodność", nr 17.
- Migdal-Najman K. Najman K. (2013). Analiza porównawcza wybranych metod analizy skupień w grupowaniu jednostek o złożonej strukturze grupowej, "Zarządzanie i Finanse", nr 3.
- Wałęga A. Krzanowski S. Chmielowski K. (2009). Wykorzystanie metody analizy skupień do identyfikacji jednorodnych zlewni pod względem indeksów powodziowości i wybranych charakterystyk fizjograficznych, "Infrastruktura i Ekologia Terenów Wiejskich", nr 6..
Autor: Magdalena Mikołajek
.