Peter Flach: Machine Learning, repetytorium 3

7 Modele liniowe

Linear models

Cechą charakterystyczną tych modeli jest operowanie pojęciami dotyczącymi geometrii przestrzeni, np. w układzie współrzędnych kartezjańskich. Modele liniowe wykorzystują pojęcia linii, lub (hiper) płaszczyzny do ustrukturalizowania przestrzeni instancji.

Zaletą modeli liniowych jest ich względna prostota, są to modele:

parametryczne - mają określoną strukturę, która jest dopasowywana w procesie uczenia poprzez parametry
stabilne - niewielkie zmiany danych uczących wywołują relatywnie niewielkie zmiany w otrzymywanych parametrach modelu
mniej podatne na przeuczenie - głównie ze względu na niewielką liczbę parametrów; za to czasami mogą występować sub optymalne kombinacje parametrów.

Metoda najmniejszych kwadratów

The least-squares method

S180 Model jednowymiarowej regresji liniowe, i jego interpretacja geometryczna na S181. Slajd S182 pokazuje wpływ (relatywnie niewielki-stabilność) na otrzymane parametry.

S183-5 Opis przypadku wielowymiarowego wymaga notacji macierzowej.

S186 Jeżeli cechy są nieskorelowane, przypadek wielowymiarowy może zdekomponowany na N przypadków jednowymiarowych. Tymczasem silna korelacja może prowadzić do niestabilności modelu. Aby ją ograniczyć stosuje się regularyzację.

S187-191 Regresję możemy stosować nie tylko do aproksymacji funkcji, ale przede wszystkim do konstruowania klasyfikatora binarnego - separującego przestrzeń na 2 części. Staramy się minimalizować liczbę źle sklasyfikowanych przypadków pozytywnych i negatywnych. Na S190 pokazana jest interpretacja geometryczna, w tym przypadku 3 przykłady są niepoprawnie sklasyfikowane - na górnej osi 1 fn (po lewej) i na dolnej 2 fp (po prawej).

Perceptron jako klasyfikator liniowy

The perceptron: a heuristic learning algorithm for linear classifiers

S192 Perceptron reprezentowany jako prosta liniowa sieć neuronowa jest przykładem klasyfikatora binarnego dającego dobre rezultaty. W procesie uczenia uaktualniamy wektory wag, ze współczynnikiem nazywanym prędkością uczenia. Algorytm jest na S193 - wagi są powiązane z cechami obiektów.

S194 Prędkość uczenia może polepszać zbieżność tego procesu, jednak tylko jeśli nie jest za duża.

S195 W przypadku dualnym, wagi są powiązane z instancjami obiektów (nie cechami). A sam algorytm wygląda analogicznie S196.

S197 Porównuje omówione klasyfikatory liniowe.

Metody z wektorem wspierającym

Support vector machines

S200 ilustruje koncepcję Support Vector Machine.

S201-7 pokazują metodę maksymalizacji marginesów pomiędzy prostą, a skrajnymi/najbliższymi przykładami, z użyciem mnożników Lagrange'a pozwalających ro rozwiązanie problemu dualnego. W tej sytuacji w celu znalezienia rozwiązania analizujemy iloczyn skalarny współczynników w macierzy Grama.

S209-13 Ilustrują metodę zwiększenia tolerancji co do ustalenia marginesów za pomocą specjalnych zmiennych „luzujących” (slack), dzięĸi temu uzyskujemy zmienny margines błędu.

Przydatna dokumentacja do SVM:

Wybrane narzędzia do SVM:

Klasyfikatory liniowe a prawdopodobieństwo

Obtaining probabilities from linear classifiers

S215-8 poprzez rzutowanie przestrzeni przykładów do przestrzeni odpowiedniej funkcji gęstości prawdopodobieństwa, możemy uzyskać intepretację wyniku działania klasyfikatora liniowego w postaci prawdopodobieństwa, jest to tzw. kalibracja.

Klasyfikacja nieliniowa - kernels

Going beyond linearity with kernel methods

S220-3 Wprowadzenie specjalnego przekształcenia (Kernel_trick) pozwala na klasyfikację danych, które nie są liniowo separowalne w oryginalnej przestrzeni. Przykład wizualizacji Kernel visualization. Wybrane kernele to np. Polynomial_kernel, Radial_basis_function_kernel.

8 Modele odległościowe

Distance-based models

S225-8 uogólniona miara Minkowskiego pozwala na odwzorowanie rożnych metryk (def. na S227).

Definicje sąsiedztwa

Neighbours and exemplars

S230-3 W zależności od doboru metryki można różnie rozumieć sąsiedztwo.

Metoda najbliższego sąsiada

Nearest-neighbour classification

S235-6 Bazując na wcześniej zdefiniowanej tassalacji Voronoia, buduje się K-Nearest Neighbor Algorithm, w którym przyjmujemy a priori liczbę k sąsiadów branych pod uwagę do określenia granic klas.

Klastryzacja odległościowa

Distance-based clustering

S238-246 Algorytm K-means pozwala na klastryzację (grupowanie) danych. Jest to klasyczny przykład uczenia nienadzorowanego.

S249-252 K-menas jest wrażliwy na charakter danych wejściowych, mogą one wymagać preprocesingu, np. skalowania. Wykresy silhouettes pozwalają na porównywanie jakości grupowań.

Przykład klasteryzacji przy pomocy narzędzia Carrot 2.

Klastryzacja hierarchiczna

Hierarchical clustering

S254-7 Dendogramy są metodą wizualizacji klastryzaji hierarchicznej.