Both sides previous revision
Poprzednia wersja
Nowa wersja
|
Poprzednia wersja
Nowa wersja
Both sides next revision
|
pl:dydaktyka:ml:2014lab3 [2014/03/17 14:31] esimon [Wprowadzenie do Weki] |
pl:dydaktyka:ml:2014lab3 [2015/05/10 14:52] kkutt [Poprawność klasyfikacji] |
//Drzewo decyzyjne to graficzna metoda wspomagania procesu decyzyjnego, stosowana w teorii decyzji. Algorytm drzew decyzyjnych jest również stosowany w uczeniu maszynowym do pozyskiwania wiedzy na podstawie przykładów.// | //Drzewo decyzyjne to graficzna metoda wspomagania procesu decyzyjnego, stosowana w teorii decyzji. Algorytm drzew decyzyjnych jest również stosowany w uczeniu maszynowym do pozyskiwania wiedzy na podstawie przykładów.// |
===== Przykład drzewa decyzyjnego ===== | ===== Przykład drzewa decyzyjnego ===== |
Przykładowe drzewo decyzyjne zostało przedstawione poniżej. | Przykładowe drzewo decyzyjne (dla danych z {{:pl:dydaktyka:ml:weather.nominal.arff.zip|}}) zostało przedstawione poniżej. |
| |
{{:pl:dydaktyka:ml:dt.png|Drzewo decyzyjne}} | {{:pl:dydaktyka:ml:dt.png|Drzewo decyzyjne}} |
</code> | </code> |
| |
**Pytanie** Korzystając ze zbioru danych w tabeli z poprzedniej sekcji, policz entropię i przyrost wiedzy dla poszczególnych atrybutów. | **Pytanie** Korzystając ze zbioru danych z tabeli z poprzedniej sekcji, policz entropię i przyrost wiedzy dla poszczególnych atrybutów. **Uwaga** - w przykładzie mamy do czynienia z problemem binarnym, więc sumy ze wzorów tak naprawdę będą tylko dwuelementowe (poza liczeniem //information gain// dla atrubutu //sky//). |
* Dla którego z atrybutów entropia jest największa? | * Dla którego z atrybutów entropia jest największa? |
* Dla którego z atrybutów //information gain// jest największy? | * Dla którego z atrybutów //information gain// jest największy? |
* Analizujac wyniki, czy dobrze wybrałeś(aś) korzeń drzewa w z poprzedniego pytania? | * Analizując wyniki, czy dobrze wybrałeś(aś) korzeń drzewa w pytaniu z poprzedniej sekcji? |
| |
| |
===== Wprowadzenie do Weki ===== | ===== Wprowadzenie do Weki ===== |
[[http://www.cs.waikato.ac.nz/~ml/weka/|Weka]], to narzędzie opensource do data miningu. | [[http://www.cs.waikato.ac.nz/~ml/weka/|Weka]], to narzędzie opensource do data miningu. |
Uruchom je wykonując w konsoli polecenie | Uruchom je wykonując w konsoli polecenie. Jeśli program nie jest zainstalowany, ściagnij go ze strony |
<code> | <code> |
$ weka | $ weka |
| </code> |
| |
| Jeśli program nie jest zainstalowany, ściągnij go ze strony: [[http://www.cs.waikato.ac.nz/~ml/weka/|Weka]] i uruchom: |
| <code> |
| $ java -jar weka.jar |
</code> | </code> |
| |
- Uruchom algorytm. Ile procent przypadków zostało poprawnie zaklasyfikowanych? Czy to dobry wynik? | - Uruchom algorytm. Ile procent przypadków zostało poprawnie zaklasyfikowanych? Czy to dobry wynik? |
- Zmień klasyfikator na //ZeroR// z gałęzi //rules//. Jakie są wyniki? | - Zmień klasyfikator na //ZeroR// z gałęzi //rules//. Jakie są wyniki? |
- Wypróbuj inne klasyfikatory. Jakie dają wyniki? | - Wybierz trzy inne klasyfikatory i wypróbuj je. Jakie dają wyniki? |
- Przejdź do zakładki **Preprocess** i zobacz jak wygląda rozkład atrybutu określającego czy danych zestaw jest //dobry// czy //zły//. Jaka byłaby skuteczność algorytmu który niezależnie od wartości atrybutów "strzelałby" że użytkownik jest wiarygodny? | - Przejdź do zakładki **Preprocess** i zobacz jak wygląda rozkład atrybutu określającego czy danych zestaw jest //dobry// czy //zły//. Jaka byłaby skuteczność algorytmu który niezależnie od wartości atrybutów "strzelałby" że użytkownik jest wiarygodny? |
- Dlaczego przed przystąpieniem do klasyfikacji, warto wcześniej przyjrzeć się danym? ;P | - Dlaczego przed przystąpieniem do klasyfikacji, warto wcześniej przyjrzeć się danym? ;P |