# Training und Evaluation eines Entscheidungsbaum-Modells

Dieses Notebook enthält alle Schritte, um einen Entscheidungsbaum auf einem
Datensatz zu trainieren und den Test-Fehler zu bestimmen.

Zunächst importieren wir einige der wichtigsten Module/Funktionen:

In [None]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

### Schritt 1: Daten lesen

Wir lesen erstmal die Daten ein und bauen uns einen DataFrame mit den Merkmalen, die wir für die
Vorhersage benutzen wollen. Dazu noch einen DataFrame/Series, die die wahren Klassen enthält.

In [None]:
df = pd.read_csv('data/iris.csv')

In [None]:
features = [c for c in df.columns if c != 'species']

In [None]:
X = df[features]

In [None]:
y = df['species']

### Schritt 2: Trainings- und Test-Daten splitten

Als nächstes teilen wir die Daten in einen Trainings- und einen Test-Teil auf.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.2)

### Schritt 3: Modell erzeugen und trainieren
    
Ein zentraler Schritt ist die Erzeugung eines neuen (leeren) Modells. Danach
nutzen wir die `fit` Methode, um das Modell auf den Trainingsdaten zu trainieren.

In [None]:
model = DecisionTreeClassifier(criterion="gini")

In [None]:
model.fit(X_train, y_train)

### Schritt 4: Evaluierung des Modells auf Test-Daten

Wir sagen die Klassen auf den Test-Daten vorher und vergleichen die Vorhersagen
dann mit der "Wahrheit" auf den Label-Werten der Test-Daten.

In [None]:
y_hat = model.predict(X_test)

Für die Fehlerberechnung benutzen wir die sklearn Funktion `confusion_matrix`:

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
confusion_matrix(y_test, y_hat)

Eine Zusammenfassung der Modellgüte pro Klasse erhalten wir über den `classification_report`:

In [None]:
from sklearn.metrics import classification_report

In [None]:
report = classification_report(y_test, y_hat)

In [None]:
print(report)