ALGORYTMY GRUPOWANIA OPARTE NA ZBIORACH PRZYBLIŻONYCH I ROZMYTYCH

Kryteria oceny jakości grupowania

Dla przestrzeni o niewielkiej liczbie wymiarów najczęściej stosowanym sposobem oceny jakości wykonanego grupowania elementów przestrzeni jest analiza graficznej postaci wyników procesu grupowania. Taka wzrokowa analiza wyników grupowania jest możliwa dzięki zastosowaniu jednej z metod przedstawiania obserwacji wielowymiarowych na płaszczyźnie. Po wykonaniu płaskiego wykresu rozmieszczenia danych, wraz z podziałem na grupy, możliwa jest wstępna (zgrubna) ocena rozmieszczenia poszczególnych grup, rozrzutu wewnątrz i między klasowego oraz ewentualnego przenikania elementów pomiędzy grupami. Taka wzrokowa ocena jakości podziału elementów przestrzeni może być wykorzystywana w prostych przypadkach, gdy grupy są rozłączne i znacznie od siebie oddalone. W trudniejszych przypadkach, gdy mamy do czynienia z grupami, które się wzajemnie przenikają, bądź też są położone blisko siebie, z wieloma elementami znajdującymi się na pograniczu grup, wzrokowa analiza może być subiektywna i nie odzwierciedlać jakości podziału. W takich przypadkach niezbędne jest stosowanie oceny jakości podziału, która opierała by się bezpośrednio na położeniu danych i grup w przestrzeni. Metodą takiej oceny jakości podziału elementów przestrzeni jest wykorzystanie funkcji kryterialnych. Jej wadą jest to, iż przy nieznajomości wartości optymalnej funkcji kryterialnej dla danego zbioru elementów może być ona wykonana jedynie w porównaniu z podziałem uzyskanym przy pomocy innej metody grupowania, bądź też z innymi parametrami wejściowymi.

Funkcje kryterialne są używane w celu porównania wyników grupowania wykonanego przy użyciu różnych algorytmów, lecz również znajdują zastosowanie bezpośrednio podczas procesu grupowania przy użyciu algorytmów iteracyjnych. W takim przypadku każdy krok iteracji musi być poprzedzony wyznaczeniem wartości wybranej funkcji kryterialnej, oraz jej porównaniem z wartością uzyskaną w kroku poprzednim.

Funkcje kryterialne można podzielić na te wykorzystujące miary odległości, oraz oparte o miary podobieństwa. Z uwagi tego, że po dokonaniu pewnych przekształceń można zamienić dowolną miarę podobieństwa na miarę odległości zajmiemy się jedynie kryteriami wykorzystującymi miary odległości. Większość kryteriów ma charakter uniwersalny, to znaczy, że mogą być one stosowane do różnych zadań, a o wyborze któregoś z nich decyduje użytkownik, bądź programista na podstawie własnych obserwacji i doświadczeń. Nie ma uniwersalnego sposobu na dobieranie właściwej funkcji kryterialnej do każdego z analizowanych zadań. W większości przypadków przy doborze kryteriów badacz musi kierować się intuicją, bądź też dokonać wyboru na podstawie oczekiwanych rezultatów grupowania.

Przykładem prostej funkcji kryterialnej jest funkcja zaczerpnięta z [5]:

gdzie m jest liczbą wszystkich elementów, m_i jest liczbą elementów w i-tej klasie, r_i jest średnią odległością elementów i-tej klasy od jej środka, natomiast n jest liczbą klas. Przy takim zdefiniowaniu funkcji kryterialnej konieczne jest przyjęcie istnienia optymalnej wartości funkcji (F0). Jakość klasyfikacji jest tym wyższa, im wartość funkcji F jest bliższa F₀
Kolejną funkcją kryterialną zbudowaną na tej samej zasadzie co poprzednia jest funkcja:

gdzie n jest liczbą grup, m_i - liczba elementów w i-tej grupie, d_ji - odległość j-tego elementu grupy od jej środka. Kryterium to, tak jak i poprzednie może być stosowane, gdy mamy do czynienia z przynależnością klasyczną i przybliżoną. Natomiast w przypadku przynależności rozmytej konieczne jest uwzględnienie stopnia przynależności każdego elementu do grupy. Stąd też kryterium to można zapisać w postaci:

gdzie m oznacza liczbę wszystkich elementów, natomiast f_ji - jest wartością funkcji przynależności j-tego elementu do i-tej grupy.
Funkcje kryterialne mogą być również opracowywane w oparciu o macierze rozrzutu. Przykłady takich funkcji zostały zamieszczone w [7]. Do przedstawienia tych kryteriów konieczne jest wprowadzenia pojęcia macierzy rozrzutu (rozproszenia).
Wprowadźmy za [7] następujące oznaczenia:
Niech będzie zbiorem L-wymiarowych macierzy kolumnowych danych. Zbiór ten zamierzamy podzielić na M grup G₁, G₂, ...,G_M, o liczebności N₁, N₂, ..., N_M. Wprowadźmy pojęcia macierzy rozrzutu:
Rozrzut całkowity:

Rozrzut wewnątrzgrupowy:

gdzie:

Całkowity rozrzut wewnątrzgrupowy:

Rozrzut międzygrupowy:

Na podstawie macierzy rozrzutu można zdefiniować następujące funkcje kryterialne [7]:

które może być interpretowane jako kryterium minimalizujące odległość średniokwadratową elementów do środków grup.

gdzie są wartościami własnymi macierzy .

Jak już wspomniano wybór konkretnej funkcji kryterialnej na podstawie której będziemy dokonywać oceny przekształcenia jest trudny i musi zostać dokonany przez badacza. Można też obliczać wartości różnych funkcji kryterialnych, a następnie porównać wyniki z oczekiwanymi.

GRUPOWANIE	KLASYFIKACJA	SELEKCJA
ALGORYTMY GRUPOWANIA OPARTE NA ZBIORACH PRZYBLIŻONYCH I ROZMYTYCH