Graficzna prezentacja elementów (punktów) przestrzeni wielowymiarowej na płaszczyźnie

"Graficzna prezentacja elementów (punktów) przestrzeni wielowymiarowej na płaszczyźnie"
Opracowane procedury

Wstęp
-
Znane metody
-
Opracowane procedury
-
Instrukcja obsługi procedur
-
Literatura

Aby móc sprawdzić jak teoria ma się do praktyki zostały opracowane 2 procedury mające na celu ukazanie wzajemnych zależności między wielowymiarowymi danymi na płaszczyźnie (Glyph Plot oraz Biplot) oraz 3 procedury oceniające jakość przedstawienia danych na płaszczyźnie z użyciem 3 metod (Głównych Składowych, Głównych Współrzędnych i Współrzędnych Dyskryminacyjnych) opracowanych w formie procedur przez mgra inż. M.Cichońskiego ([6]) w roku 1999/2000. Wszystkie procedury wykorzystują środowisko programowe MATLAB w wersji 5.2.

Glyph Plots

Metoda Glyph Plots ([10],[17]) najlepiej sprawdza się przy przedstawianiu na płaszczyźnie od trzech do pięciu zmiennych. Polega ona na tym, że zostają określone dwie zmienne pierwszoplanowe a pozostałe są zmiennymi drugoplanowymi. Przykładowa procedura, która została napisana, aby zaprezentować działanie tej metody, została przygotowana dla czterech zmiennych. Na początku użytkownik określa, które zmienne z podanej macierzy o wymiarach (n x 4) mają dla niego pierwszoplanowe znaczenie. Na tej podstawie zostaną stworzone współrzędne punktów w układzie xy, przy czym istnieje tu całkowita dowolności co do wyboru numerów kolumn jak i ich kolejności w wywołaniu. Pamiętać jedynie należy, że pierwszy podany numer kolumny odpowiada za przedstawienie wartości danej kolumny na osi X a drugi na osi y. Numery dwóch pozostałych kolumn, poczynając od najmniejszego posłużą do obliczenia długości promieni wychodzących z punktów oraz do wyliczenia kąta względem osi x, pod jakim będą skierowane promienie. Najpierw wartości z pierwszej kolumny są przeszukiwane w celu określenia maksymalnej i minimalnej wartości zmiennej. Następnie wszystkie wartości zostają przeskalowane do zbioru [0;1], gdzie wartość 0 przyjmuje element o wartości minimalnej, a 1 analogicznie element o wartości maksymalnej. W drugiej kolejności zostają przeszukane zmienne z ostatniej, z dwóch pozostałych kolumn. Tutaj jednak wartościom minimalnej i maksymalnej zostają przyporządkowane odpowiednio wartości kąta 0^o i 180^o. Pozostałe zmienne przyjmują odpowiednio wartości z zakresu [0^o,180^o]. Ostatnią rzeczą jaką wykonuje procedura, zanim na ekranie zostanie wyświetlony wykres zależności czterech zmiennych jest przeskalowanie długości promieni w zależności od wielkości wykresu. Aby zabezpieczyć się przed sytuacją, kiedy promienie będą zbyt długie, lub zbyt krótkie w stosunku do rozkładu punktów w układzie współrzędnych, powodując jego nieczytelność, zostaje wyliczona odległość na osi x, między najbardziej oddalonymi od siebie punktami. Długość promienia d dla wartości maksymalnej zostaje wyliczona ze wzoru:

d=0,1*(wyliczona maksymalna odległość).
Biplot

Metoda Biplot (podwójnego wykresu) ([16],[10]) ukazuje prezentację graficzną zależności występujących między zmiennymi. Jest to metoda jednoczesnej prezentacji na płaszczyźnie obserwacji oraz zmiennych. Zastosowano tu tzw. Dekompozycję macierzy według wartości osobliwych. Jest to dekompozycja macierzy X o wymiarach (n x n), a więc np. macierzy obserwacji. Można ją wyrazić wzorem:

X=ULV^T
gdzie:

U - macierz ortogonalna o wymiarach (n x n), której kolumnami są wektory własne odpowiadające uporządkowanym malejąco wartościom własnym macierzy XX^T , która ma rząd m, dlatego tylko m wartości własnych jest niezerowych
V - macierz ortogonalna o wymiarach (m x m), której kolumnami są wektory własne odpowiadające uporządkowanym malejąco wartościom własnym macierzy X^TX
L - macierz o wymiarach (n x m), gdzie spośród nm elementów l_ijniezerowe są jedynie elementy l_ii=l_i (i=1,..,m), a pozostałe elementy są zerami. Niezerowe elementy to uporządkowane malejąco wartości własne macierzy X^TX i są one równe uporządkowanym malejąco niezerowym wartościom własnym macierzy XX^T. Te niezerowe elementy nazywają się wartościami osobliwymi macierzy X.

Dekompozycję według wartości osobliwych można również zapisać wzorem:

gdzie :
u_i - i-ta kolumna macierzy U
v_i - i-ta kolumna macierzy V
l_i - i-ty niezerowy element macierzy L

Z punktu widzenia prezentacji graficznej dekompozycja macierzy X według wartości osobliwych ma istotną własność. Aby to zilustrować, utwórzmy macierz T przez wzięcie tylko pierwszych dwóch wyrazów dekompozycji:

Teraz można już zauważyć, że macierz T jest rozwiązanie następującego zadania: znaleźć macierz o wymiarach (n x m), rzędu 2, która minimalizuje wyrażenie:

tzn. jest najbliższa (w sensie najmniejszych kwadratów) macierzy X. A więc macierz T rzędu 2 może być wykorzystana do przybliżonej prezentacji graficznej macierzy X, gdyż można ją zapisać w postaci:

T=GH^T
gdzie:
G - macierz w wymiarach (n x 2)
H - macierz o wymiarach (m x 2)
lub w postaci dowolnego elementu:

gdzie:
g_i^T - i-ty wiersz macierzy G
h_j - j-ta kolumna macierzy H

Gdy rozpatrujemy macierz obserwacji, jej i-temu wierszowi przyporządkowany jest dwuwymiarowy wektor g_i (i=1,...,n), a jej j-tej kolumnie dwuwymiarowy wektor h_j (j=1,...,m). Wektory g_i mogą być przedstawione w postaci punktów na płaszczyźnie - odzwierciedlają poszczególne obserwacje. Wektory h_i mogą również mogą być przedstawione na płaszczyźnie, ale jako wektory, których początki są w początku układu współrzędnych, a końce w punktach h_j - wtedy odzwierciedlają poszczególne zmienne. W ten sposób na jednym wykresie uzyskujemy równocześnie przedstawienie obserwacji jako punktów, a zmiennych jako wektorów. Dlatego właśnie metoda ta nosi nazwę metody podwójnego wykresu.
W praktyce wygodniej jest stosować obserwację scentrowane, tzn. odjąć od każdej obserwacji wektor średnich. Wtedy macierz X^TX, niezbędna do wyznaczenia dekompozycji, jest to macierz kowariancji zbioru obserwacji pomnożona przez (n-1).

Ustalanie macierzy G i H można przeprowadzić na dwa sposoby:
w pierwszym przyjmuje się :

G=(n-1)^0,5[u₁u₂]
H=(n-1)^0,5[l₁v₁l₂v₂]
W tym przypadku występują następujące właściwości:
- odległość Mahalanobisa między obserwacjami m-wymiarowymi jest przybliżona na podwójnym wykresie odległością euklidesową między punktami im odpowiadającymi, np. odległość Mahalanobisa d_ij jest przybliżona za pomocą odległości między punktami g_i oraz g_j
- odchylenie standardowe każdej zmiennej jest przybliżone na podwójnym wykresie długością wektora jej odpowiadającego, np. odchylenie standardowe zmiennej X_j jest przybliżone za pomocą długości wektora h
- współczynnik korelacji dwóch zmiennych jest przybliżony na podwójnym wykresie cosinusem kąta między wektorami im odpowiadającymi, np. współczynnik korelacji zmiennych X_j oraz X_l jest przybliżony cosinusem kąta między wektorami h_j oraz h_l.
natomiast w drugim przyjmuje się:

G=[l₁u₁l₂u₂]
H=[v₁v₂]

W tym przypadku odległość euklidesowa między obserwacjami m-wymiarowymi jest przybliżona na podwójnym wykresie odległością euklidesową między punktami im odpowiadającymi, np. odległość euklidesowa d_ij jest przybliżona za pomocą odległości między punktami g_i oraz g_j.
Funkcje kryterialne określające dobroć przedstawienia

To, jaki wynik otrzymamy, rzutując punkty przestrzeni wielowymiarowej na płaszczyznę zależy w głównej mierze od metody, jaką do tego celu użyjemy. Mając tak duży wybór różnych metod, kluczową sprawą staje się umiejętność oceny jakości przedstawienia, jaką dla danych punktów może zapewnić dane metoda. W celu określenia tej jakości dla zadanego zbioru punktów, należy skorzystać z odpowiednich funkcji zwanych funkcjami kryterialnymi. Przy ich pomocy, jeszcze przed przystąpieniem do analizy otrzymanych wykresów można sprawdzić na ile otrzymane wyniki są dokładne. Oczywistym jest, że od tego jakiej metody chcemy użyć do analizy danych zależy wygląd funkcji kryterialnej i sposób jej obliczania. Oto w jaki sposób wylicza się tę jakość przedstawienia zwaną inaczej dobrocią przedstawienia dla konkretnych metod omówionych przez mgra inż. M. Cichońskiego w roku 1999/2000 ([6]):
metoda głównych składowych

do określenia dobroci przedstawienia za pomocą głównych składowych wykorzystuje się następujący współczynnik:

gdzie:

s_ii - i-ty element głównej przekątnej macierzy kowariancji zbioru obserwacji S
l₁ i l₂ - dwie największe wartości własne macierzy kowariancji zbioru obserwacji S. l₁ jest równe wariancji z próby pierwszej głównej składowej, a l₂ z drugiej.

Wartości współczynnika l_o należą do przedziału [0;1], przy czym im wartość l_o bliższa 1, tym jakość przedstawienia jest lepsza.
metoda głównych współrzędnych
aby określić dobroć należy wykonać następujące kroki:
- wyznaczyć macierz odległości między obserwacjami, oznaczoną przez D. Jest to macierz o wymiarach (n x n), której element d_ij jest to odległość między obserwacjami x_i oraz x_j.
- Na podstawie macierzy odległości wyznaczyć tzw. Macierz podobieństw obserwacji, oznaczoną jako C. Jest to macierz o wymiarach (n x n), której elementy są określone następująco:
- dokonać transformacji macierzy podobieństw C w macierz B o wymiarach (n x n), której elementy określone są następująco:
  
  gdzie:
- wyznaczyć dwie największe wartości własne macierzy B, oznaczone przez l₁ i l₂.
Kiedy powyższe kroki mamy już za sobą, wówczas możemy przystąpić do określenia dobroci przedstawienia graficznego za pomocą metody analizy głównych współrzędnych stosując następujący współczynnik:

Wartości tego współczynnika należą do przedziału [0;1]. Im wyższa jego wartość, tym dokładniejsze przedstawienie obserwacji na płaszczyźnie.
metoda współrzędnych dyskryminacyjnych

Do określenia dobroci przedstawienia stosuje się w tej metodzie następujący współczynnik:

gdzie:

l₁, l₂, ..., l_m - uporządkowane malejąco wartości własne macierzy W^-1B

B jest tzw. macierzą rozrzutu międzyklasowego, obliczaną ze wzoru:

W jest tzw. macierzą rozrzutu wewnątrzklasowego, obliczaną ze wzoru:

gdzie:

- wektor średni

x_i - i-ta obserwacja

- wektor średnich klasy C_j, tzn.:

Wartości współczynnika l_o należą do przedziału [0;1]. Im wyższa wartość, tym lepsze przedstawienie sklasyfikowanych obserwacji na płaszczyźnie.