- Wstęp
- -
- Znane metody
- -
- Opracowane procedury
- -
- Instrukcja obsługi procedur
- -
- Literatura
|
Aby móc sprawdzić jak teoria ma się do praktyki zostały opracowane 2 procedury mające na celu ukazanie wzajemnych zależności między wielowymiarowymi danymi na płaszczyźnie (Glyph Plot oraz Biplot) oraz 3 procedury oceniające jakość przedstawienia danych na płaszczyźnie z użyciem 3 metod (Głównych Składowych, Głównych Współrzędnych i Współrzędnych Dyskryminacyjnych) opracowanych w formie procedur przez mgra inż. M.Cichońskiego ([6]) w roku 1999/2000. Wszystkie procedury wykorzystują środowisko programowe MATLAB w wersji 5.2.
- Glyph Plots
Metoda Glyph Plots ([10],[17]) najlepiej sprawdza się przy przedstawianiu na płaszczyźnie od trzech do pięciu zmiennych. Polega ona na tym, że zostają określone dwie zmienne pierwszoplanowe a pozostałe są zmiennymi drugoplanowymi. Przykładowa procedura, która została napisana, aby zaprezentować działanie tej metody, została przygotowana dla czterech zmiennych. Na początku użytkownik określa, które zmienne z podanej macierzy o wymiarach (n x 4) mają dla niego pierwszoplanowe znaczenie. Na tej podstawie zostaną stworzone współrzędne punktów w układzie xy, przy czym istnieje tu całkowita dowolności co do wyboru numerów kolumn jak i ich kolejności w wywołaniu. Pamiętać jedynie należy, że pierwszy podany numer kolumny odpowiada za przedstawienie wartości danej kolumny na osi X a drugi na osi y. Numery dwóch pozostałych kolumn, poczynając od najmniejszego posłużą do obliczenia długości promieni wychodzących z punktów oraz do wyliczenia kąta względem osi x, pod jakim będą skierowane promienie.
Najpierw wartości z pierwszej kolumny są przeszukiwane w celu określenia maksymalnej i minimalnej wartości zmiennej. Następnie wszystkie wartości zostają przeskalowane do zbioru [0;1], gdzie wartość 0 przyjmuje element o wartości minimalnej, a 1 analogicznie element o wartości maksymalnej. W drugiej kolejności zostają przeszukane zmienne z ostatniej, z dwóch pozostałych kolumn. Tutaj jednak wartościom minimalnej i maksymalnej zostają przyporządkowane odpowiednio wartości kąta 0o i 180o. Pozostałe zmienne przyjmują odpowiednio wartości z zakresu [0o,180o]. Ostatnią rzeczą jaką wykonuje procedura, zanim na ekranie zostanie wyświetlony wykres zależności czterech zmiennych jest przeskalowanie długości promieni w zależności od wielkości wykresu. Aby zabezpieczyć się przed sytuacją, kiedy promienie będą zbyt długie, lub zbyt krótkie w stosunku do rozkładu punktów w układzie współrzędnych, powodując jego nieczytelność, zostaje wyliczona odległość na osi x, między najbardziej oddalonymi od siebie punktami. Długość promienia d dla wartości maksymalnej zostaje wyliczona ze wzoru:
d=0,1*(wyliczona maksymalna odległość).
- Biplot
Metoda Biplot (podwójnego wykresu) ([16],[10]) ukazuje prezentację graficzną zależności występujących między zmiennymi. Jest to metoda jednoczesnej prezentacji na płaszczyźnie obserwacji oraz zmiennych. Zastosowano tu tzw. Dekompozycję macierzy według wartości osobliwych. Jest to dekompozycja macierzy X o wymiarach (n x n), a więc np. macierzy obserwacji. Można ją wyrazić wzorem:
X=ULVT
gdzie:
U - macierz ortogonalna o wymiarach (n x n), której kolumnami są wektory własne odpowiadające uporządkowanym malejąco wartościom własnym macierzy XXT , która ma rząd m, dlatego tylko m wartości własnych jest niezerowych
V - macierz ortogonalna o wymiarach (m x m), której kolumnami są wektory własne odpowiadające uporządkowanym malejąco wartościom własnym macierzy XTX
L - macierz o wymiarach (n x m), gdzie spośród nm elementów lij niezerowe są jedynie elementy lii=li (i=1,..,m), a pozostałe elementy są zerami. Niezerowe elementy to uporządkowane malejąco wartości własne macierzy XTX i są one równe uporządkowanym malejąco niezerowym wartościom własnym macierzy XXT. Te niezerowe elementy nazywają się wartościami osobliwymi macierzy X.
Dekompozycję według wartości osobliwych można również zapisać wzorem:
gdzie :
ui - i-ta kolumna macierzy U
vi - i-ta kolumna macierzy V
li - i-ty niezerowy element macierzy L
Z punktu widzenia prezentacji graficznej dekompozycja macierzy X według wartości osobliwych ma istotną własność. Aby to zilustrować, utwórzmy macierz T przez wzięcie tylko pierwszych dwóch wyrazów dekompozycji:
Teraz można już zauważyć, że macierz T jest rozwiązanie następującego zadania: znaleźć macierz o wymiarach (n x m), rzędu 2, która minimalizuje wyrażenie:
tzn. jest najbliższa (w sensie najmniejszych kwadratów) macierzy X. A więc macierz T rzędu 2 może być wykorzystana do przybliżonej prezentacji graficznej macierzy X, gdyż można ją zapisać w postaci:
T=GHT
gdzie:
G - macierz w wymiarach (n x 2)
H - macierz o wymiarach (m x 2)
lub w postaci dowolnego elementu:
gdzie:
giT - i-ty wiersz macierzy G
hj - j-ta kolumna macierzy H
Gdy rozpatrujemy macierz obserwacji, jej i-temu wierszowi przyporządkowany jest dwuwymiarowy wektor gi (i=1,...,n), a jej j-tej kolumnie dwuwymiarowy wektor hj (j=1,...,m). Wektory gi mogą być przedstawione w postaci punktów na płaszczyźnie - odzwierciedlają poszczególne obserwacje. Wektory hi mogą również mogą być przedstawione na płaszczyźnie, ale jako wektory, których początki są w początku układu współrzędnych, a końce w punktach hj - wtedy odzwierciedlają poszczególne zmienne. W ten sposób na jednym wykresie uzyskujemy równocześnie przedstawienie obserwacji jako punktów, a zmiennych jako wektorów. Dlatego właśnie metoda ta nosi nazwę metody podwójnego wykresu.
W praktyce wygodniej jest stosować obserwację scentrowane, tzn. odjąć od każdej obserwacji wektor średnich. Wtedy macierz XTX, niezbędna do wyznaczenia dekompozycji, jest to macierz kowariancji zbioru obserwacji pomnożona przez (n-1).
Ustalanie macierzy G i H można przeprowadzić na dwa sposoby:
- w pierwszym przyjmuje się :
G=(n-1) 0,5[u 1u 2]
H=(n-1)0,5[l1v1l2v2]
W tym przypadku występują następujące właściwości:
odległość Mahalanobisa między obserwacjami m-wymiarowymi jest przybliżona na podwójnym wykresie odległością euklidesową między punktami im odpowiadającymi, np. odległość Mahalanobisa dij jest przybliżona za pomocą odległości między punktami gi oraz gj
odchylenie standardowe każdej zmiennej jest przybliżone na podwójnym wykresie długością wektora jej odpowiadającego, np. odchylenie standardowe zmiennej Xj jest przybliżone za pomocą długości wektora h
współczynnik korelacji dwóch zmiennych jest przybliżony na podwójnym wykresie cosinusem kąta między wektorami im odpowiadającymi, np. współczynnik korelacji zmiennych Xj oraz Xl jest przybliżony cosinusem kąta między wektorami hj oraz hl.
- natomiast w drugim przyjmuje się:
W tym przypadku odległość euklidesowa między obserwacjami m-wymiarowymi jest przybliżona na podwójnym wykresie odległością euklidesową między punktami im odpowiadającymi, np. odległość euklidesowa dij jest przybliżona za pomocą odległości między punktami gi oraz gj.
- Funkcje kryterialne określające dobroć przedstawienia
To, jaki wynik otrzymamy, rzutując punkty przestrzeni wielowymiarowej na płaszczyznę zależy w głównej mierze od metody, jaką do tego celu użyjemy. Mając tak duży wybór różnych metod, kluczową sprawą staje się umiejętność oceny jakości przedstawienia, jaką dla danych punktów może zapewnić dane metoda. W celu określenia tej jakości dla zadanego zbioru punktów, należy skorzystać z odpowiednich funkcji zwanych funkcjami kryterialnymi. Przy ich pomocy, jeszcze przed przystąpieniem do analizy otrzymanych wykresów można sprawdzić na ile otrzymane wyniki są dokładne. Oczywistym jest, że od tego jakiej metody chcemy użyć do analizy danych zależy wygląd funkcji kryterialnej i sposób jej obliczania. Oto w jaki sposób wylicza się tę jakość przedstawienia zwaną inaczej dobrocią przedstawienia dla konkretnych metod omówionych przez mgra inż. M. Cichońskiego w roku 1999/2000 ([6]):
- metoda głównych składowych
do określenia dobroci przedstawienia za pomocą głównych składowych wykorzystuje się następujący współczynnik:
gdzie:
sii - i-ty element głównej przekątnej macierzy kowariancji zbioru obserwacji S
l1 i l2 - dwie największe wartości własne macierzy kowariancji zbioru obserwacji S. l1 jest równe wariancji z próby pierwszej głównej składowej, a l2 z drugiej.
Wartości współczynnika lo należą do przedziału [0;1], przy czym im wartość lo bliższa 1, tym jakość przedstawienia jest lepsza.
- metoda głównych współrzędnych
aby określić dobroć należy wykonać następujące kroki:
wyznaczyć macierz odległości między obserwacjami, oznaczoną przez D. Jest to macierz o wymiarach (n x n), której element dij jest to odległość między obserwacjami xi oraz xj.
Na podstawie macierzy odległości wyznaczyć tzw. Macierz podobieństw obserwacji, oznaczoną jako C. Jest to macierz o wymiarach (n x n), której elementy są określone następująco:
dokonać transformacji macierzy podobieństw C w macierz B o wymiarach (n x n), której elementy określone są następująco:
gdzie:
wyznaczyć dwie największe wartości własne macierzy B, oznaczone przez l1 i l2.
Kiedy powyższe kroki mamy już za sobą, wówczas możemy przystąpić do określenia dobroci przedstawienia graficznego za pomocą metody analizy głównych współrzędnych stosując następujący współczynnik:
Wartości tego współczynnika należą do przedziału [0;1]. Im wyższa jego wartość, tym dokładniejsze przedstawienie obserwacji na płaszczyźnie.
- metoda współrzędnych dyskryminacyjnych
Do określenia dobroci przedstawienia stosuje się w tej metodzie następujący współczynnik:
gdzie:
l1, l2, ..., lm - uporządkowane malejąco wartości własne macierzy W-1B
B jest tzw. macierzą rozrzutu międzyklasowego, obliczaną ze wzoru:
W jest tzw. macierzą rozrzutu wewnątrzklasowego, obliczaną ze wzoru:
gdzie:
 - wektor średni
xi - i-ta obserwacja
 - wektor średnich klasy C j, tzn.:
Wartości współczynnika lo należą do przedziału [0;1]. Im wyższa wartość, tym lepsze przedstawienie sklasyfikowanych obserwacji na płaszczyźnie.
|