Linear models
Cechą charakterystyczną tych modeli jest operowanie pojęciami dotyczącymi geometrii przestrzeni, np. w układzie współrzędnych kartezjańskich. Modele liniowe wykorzystują pojęcia linii, lub (hiper) płaszczyzny do ustrukturalizowania przestrzeni instancji.
Zaletą modeli liniowych jest ich względna prostota, są to modele:
The least-squares method
S180
Model jednowymiarowej regresji liniowe, i jego interpretacja geometryczna na S181
.
Slajd S182
pokazuje wpływ (relatywnie niewielki-stabilność) na otrzymane parametry.
S183-5
Opis przypadku wielowymiarowego wymaga notacji macierzowej.
S186
Jeżeli cechy są nieskorelowane, przypadek wielowymiarowy może zdekomponowany na N przypadków jednowymiarowych.
Tymczasem silna korelacja może prowadzić do niestabilności modelu.
Aby ją ograniczyć stosuje się regularyzację.
S187-191
Regresję możemy stosować nie tylko do aproksymacji funkcji, ale przede wszystkim do konstruowania klasyfikatora binarnego - separującego przestrzeń na 2 części.
Staramy się minimalizować liczbę źle sklasyfikowanych przypadków pozytywnych i negatywnych.
Na S190
pokazana jest interpretacja geometryczna, w tym przypadku 3 przykłady są niepoprawnie sklasyfikowane - na górnej osi 1 fn (po lewej) i na dolnej 2 fp (po prawej).
The perceptron: a heuristic learning algorithm for linear classifiers
S192
Perceptron reprezentowany jako prosta liniowa sieć neuronowa jest przykładem klasyfikatora binarnego dającego dobre rezultaty.
W procesie uczenia uaktualniamy wektory wag, ze współczynnikiem nazywanym prędkością uczenia.
Algorytm jest na S193
- wagi są powiązane z cechami obiektów.
S194
Prędkość uczenia może polepszać zbieżność tego procesu, jednak tylko jeśli nie jest za duża.
S195
W przypadku dualnym, wagi są powiązane z instancjami obiektów (nie cechami).
A sam algorytm wygląda analogicznie S196
.
S197
Porównuje omówione klasyfikatory liniowe.
Support vector machines
S200
ilustruje koncepcję Support Vector Machine.
S201-7
pokazują metodę maksymalizacji marginesów pomiędzy prostą, a skrajnymi/najbliższymi przykładami, z użyciem
mnożników Lagrange'a pozwalających ro rozwiązanie problemu dualnego.
W tej sytuacji w celu znalezienia rozwiązania analizujemy iloczyn skalarny współczynników w macierzy Grama.
S209-13
Ilustrują metodę zwiększenia tolerancji co do ustalenia marginesów za pomocą specjalnych zmiennych „luzujących” (slack), dzięĸi temu uzyskujemy zmienny margines błędu.
Przydatna dokumentacja do SVM:
Wybrane narzędzia do SVM:
Obtaining probabilities from linear classifiers
S215-8
poprzez rzutowanie przestrzeni przykładów do przestrzeni odpowiedniej funkcji gęstości prawdopodobieństwa, możemy uzyskać intepretację wyniku działania klasyfikatora liniowego w postaci prawdopodobieństwa, jest to tzw. kalibracja.
Going beyond linearity with kernel methods
S220-3
Wprowadzenie specjalnego przekształcenia (Kernel_trick) pozwala na klasyfikację danych, które nie są liniowo separowalne w oryginalnej przestrzeni.
Przykład wizualizacji Kernel visualization.
Wybrane kernele to np. Polynomial_kernel, Radial_basis_function_kernel.
Distance-based models
S225-8
uogólniona miara Minkowskiego pozwala na odwzorowanie rożnych metryk (def. na S227
).
Neighbours and exemplars
S230-3
W zależności od doboru metryki można różnie rozumieć sąsiedztwo.
Nearest-neighbour classification
S235-6
Bazując na wcześniej zdefiniowanej tassalacji Voronoia,
buduje się K-Nearest Neighbor Algorithm,
w którym przyjmujemy a priori liczbę k sąsiadów branych pod uwagę do określenia granic klas.
Distance-based clustering
S238-246
Algorytm K-means pozwala na klastryzację (grupowanie) danych.
Jest to klasyczny przykład uczenia nienadzorowanego.
S249-252
K-menas jest wrażliwy na charakter danych wejściowych, mogą one wymagać preprocesingu, np. skalowania.
Wykresy silhouettes pozwalają na porównywanie jakości grupowań.
Przykład klasteryzacji przy pomocy narzędzia Carrot 2.
Hierarchical clustering
S254-7
Dendogramy są metodą wizualizacji klastryzaji hierarchicznej.