Wielu z nas słyszało zwrot "analiza skupień", ale to, co to znaczy, nie jest wszystkim. Co więcej, brzmi to bardziej niż tajemniczo! W rzeczywistości jest to tylko nazwa metody podziału próbki danych na kategorie elementów według określonych kryteriów. Na przykład analiza skupień pozwala podzielić ludzi na grupy o wysokiej, średniej i niskiej samoocenie. Mówiąc najprościej, klaster jest rodzajem obiektów, które są podobne w określonym atrybucie.
Analiza skupień: problemy w użyciu
Decydując się na zastosowanie tej metody w swoich badaniach, należy pamiętać, że klastry wybrane w jej trakcie mogą być niestabilne. Dlatego, podobnie jak w przypadku analizy czynnikowej, należy sprawdzić wyniki na innej grupie obiektów lub po pewnym czasie obliczyć błąd pomiaru. Co więcej, najlepiej jest używać analizy skupień na dużych próbkach, wybranych przez randomizację lub stratyfikację, ponieważ tylko w ten sposób możemy wyciągnąć naukowy wniosek za pomocą indukcji. Najlepszy ze wszystkich okazał się przetestować hipotezy i nie tworzyć ich od zera.
Hierarchiczna analiza skupień
Jeśli chcesz szybko klasyfikować elementy losowe, możesz zacząć od rozważenia każdego z nich na początkowym etapie jako oddzielnego klastra. Jest to esencja jednego z najłatwiejszych do zrozumienia rodzajów analizy skupień. Używając go, badacz w drugim etapie tworzy pary elementów, które są podobne w swojej charakterystyce, a następnie łączy je ze sobą niezbędną liczbę razy. Klastry, które znajdują się w minimalnej odległości między sobą, określa się za pomocą procedury integracyjnej. Powtarza się, dopóki nie spełnia jednego z następujących kryteriów:
Aby poprawnie obliczyć odległość między klastrami, często używają następujących technik:
Do oceny wyników klastrowania wykorzystywane są następujące kryteria:
Metody analizy klastra
Najczęściej podczas analizy próbki obiektów stosowana jest metoda minimalnej odległości. Polega ona na tym, że klaster łączy w sobie elementy o współczynniku podobieństwa, który jest większy niż wartość progowa. Podczas korzystania z metody lokalnego dystansu rozróżnia się dwa klastry: odległość między punktami pierwszego jest maksymalna, a druga jest minimalna. Metoda grupowania klastrów obejmuje obliczanie odległości między średnimi wartościami wskaźników w grupach. A metoda Warda jest najbardziej racjonalna w użyciu do grupowania klastrów w pobliżu badanego parametru.