Both sides previous revision
Poprzednia wersja
Nowa wersja
|
Poprzednia wersja
|
pl:dydaktyka:ml:2014lab3 [2014/03/26 07:55] esimon [Algorytm ID3 w pseudokodzie] |
pl:dydaktyka:ml:2014lab3 [2019/06/27 15:50] (aktualna) |
</code> | </code> |
| |
**Pytanie** Korzystając ze zbioru danych z tabeli z poprzedniej sekcji, policz entropię i przyrost wiedzy dla poszczególnych atrybutów. **Uwaga** - w przykładzie mamy do czynienia z problemem binarnym, więc sumy ze wzorów tak naprawdę będą tylko dwuelementowe. | **Pytanie** Korzystając ze zbioru danych z tabeli z poprzedniej sekcji, policz entropię i przyrost wiedzy dla poszczególnych atrybutów. **Uwaga** - w przykładzie mamy do czynienia z problemem binarnym, więc sumy ze wzorów tak naprawdę będą tylko dwuelementowe (poza liczeniem //information gain// dla atrubutu //sky//). |
* Dla którego z atrybutów entropia jest największa? | * Dla którego z atrybutów entropia jest największa? |
* Dla którego z atrybutów //information gain// jest największy? | * Dla którego z atrybutów //information gain// jest największy? |
===== Wprowadzenie do Weki ===== | ===== Wprowadzenie do Weki ===== |
[[http://www.cs.waikato.ac.nz/~ml/weka/|Weka]], to narzędzie opensource do data miningu. | [[http://www.cs.waikato.ac.nz/~ml/weka/|Weka]], to narzędzie opensource do data miningu. |
Uruchom je wykonując w konsoli polecenie | Uruchom je wykonując w konsoli polecenie. Jeśli program nie jest zainstalowany, ściagnij go ze strony |
<code> | <code> |
$ weka | $ weka |
| </code> |
| |
| Jeśli program nie jest zainstalowany, ściągnij go ze strony: [[http://www.cs.waikato.ac.nz/~ml/weka/|Weka]] i uruchom: |
| <code> |
| $ java -jar weka.jar |
</code> | </code> |
| |
| |
==== Poprawność klasyfikacji ==== | ==== Poprawność klasyfikacji ==== |
- Załaduj plik credit-g.arff do Weki. Zawiera on dane uczące dla systemu, który na podstawie atrybutów zawartych w pliku powinien określać czy dany zestaw wartości atrybutów wskazuje na wiarygodnego klienta banku, czy też nie - czy można przyznać mu kredyt, czy jest to ryzykowne. | - Załaduj plik {{:pl:dydaktyka:ml:credit-g.arff.gz|credit-g.arff}} do Weki. Zawiera on dane uczące dla systemu, który na podstawie atrybutów zawartych w pliku powinien określać czy dany zestaw wartości atrybutów wskazuje na wiarygodnego klienta banku, czy też nie - czy można przyznać mu kredyt, czy jest to ryzykowne. |
- Przejdź do zakładki **Classify** i wybierz algorytm J48. | - Przejdź do zakładki **Classify** i wybierz algorytm J48. |
- W obszarze //Test options// wybierz opcje //Percentage split// z wartością 66% Oznacza to, ze 66% danych posłuży do uczenia, a 34% do walidacji. Jakie to ma znaczenie? | - W obszarze //Test options// wybierz opcje //Percentage split// z wartością 66% Oznacza to, ze 66% danych posłuży do uczenia, a 34% do walidacji. Jakie to ma znaczenie? |