Analiza skupień: metoda i zakres

14.05.2019

Wielu z nas słyszało zwrot "analiza skupień", ale to, co to znaczy, nie jest wszystkim. Co więcej, brzmi to bardziej niż tajemniczo! W rzeczywistości jest to tylko nazwa metody podziału próbki danych na kategorie elementów według określonych kryteriów. Na przykład analiza skupień pozwala podzielić ludzi na grupy o wysokiej, średniej i niskiej samoocenie. Mówiąc najprościej, klaster jest rodzajem obiektów, które są podobne w określonym atrybucie.

Analiza skupień: problemy w użyciu

analiza skupień Decydując się na zastosowanie tej metody w swoich badaniach, należy pamiętać, że klastry wybrane w jej trakcie mogą być niestabilne. Dlatego, podobnie jak w przypadku analizy czynnikowej, należy sprawdzić wyniki na innej grupie obiektów lub po pewnym czasie obliczyć błąd pomiaru. Co więcej, najlepiej jest używać analizy skupień na dużych próbkach, wybranych przez randomizację lub stratyfikację, ponieważ tylko w ten sposób możemy wyciągnąć naukowy wniosek za pomocą indukcji. Najlepszy ze wszystkich okazał się przetestować hipotezy i nie tworzyć ich od zera.

Hierarchiczna analiza skupień

hierarchiczna analiza skupień Jeśli chcesz szybko klasyfikować elementy losowe, możesz zacząć od rozważenia każdego z nich na początkowym etapie jako oddzielnego klastra. Jest to esencja jednego z najłatwiejszych do zrozumienia rodzajów analizy skupień. Używając go, badacz w drugim etapie tworzy pary elementów, które są podobne w swojej charakterystyce, a następnie łączy je ze sobą niezbędną liczbę razy. Klastry, które znajdują się w minimalnej odległości między sobą, określa się za pomocą procedury integracyjnej. Powtarza się, dopóki nie spełnia jednego z następujących kryteriów:

  • uzyskanie wstępnie zaplanowanej liczby klastrów;
  • każdy klaster zawiera wymaganą liczbę elementów;
  • każda grupa ma niezbędny stosunek niejednorodności i jednorodności w obrębie tej grupy.

Aby poprawnie obliczyć odległość między klastrami, często używają następujących technik:

  • pojedyncza i pełna komunikacja;
  • połączenie międzypokładowe w środku króla;
  • metoda centroid;
  • średnia grupa odbioru.

Do oceny wyników klastrowania wykorzystywane są następujące kryteria:

  • indeks definicji;
  • współczynnik podziału;
  • normalna, znormalizowana i zmodyfikowana entropia;
  • drugi i trzeci funkcjonalny Rubens.

Metody analizy klastra

metody analizy skupień Najczęściej podczas analizy próbki obiektów stosowana jest metoda minimalnej odległości. Polega ona na tym, że klaster łączy w sobie elementy o współczynniku podobieństwa, który jest większy niż wartość progowa. Podczas korzystania z metody lokalnego dystansu rozróżnia się dwa klastry: odległość między punktami pierwszego jest maksymalna, a druga jest minimalna. Metoda grupowania klastrów obejmuje obliczanie odległości między średnimi wartościami wskaźników w grupach. A metoda Warda jest najbardziej racjonalna w użyciu do grupowania klastrów w pobliżu badanego parametru.