# Data Science 2 (Klassifikation)

In [None]:
import matplotlib.pyplot as plt
from matplotlib.lines import Line2D
import numpy as np
import pandas as pd
import seaborn as sns
import sklearn

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Matplotlib parameters
plt.rcParams["figure.dpi"] = 150
plt.rcParams["figure.figsize"] = [5, 4]
sns.set_style("whitegrid")

## Aufgabe 1: Evaluation von Klassifizierungen
Im Folgenden wollen wir uns mit verschiedenen Metriken zur Evaluation von Klassifikatoren vertraut machen. 

### Aufgabe 1.1: Precision, Recall und F1-Score
Gegeben ist ein Vektor an richtigen Labels und verschiedene Klassifizierungen. Berechnen Sie Precision, Recall und F1-Score für die Klassifizierungen A, B, C und D. "1" steht für positiv, "0" für negativ.

In [None]:
true_labels = [0, 1, 0, 0, 1, 0, 1]
classification_A = [0, 1, 1, 1, 1, 0, 1]
classification_B = [1, 0, 1, 0, 1, 1, 1]
classification_C = [0, 0, 0, 0, 0, 1, 0]
classification_D = [0, 1, 0, 0, 0, 1, 0]

In [None]:
# your code goes here

### Aufgabe 1.2: Recall an einem Beispiel
![Recall Aufgabe](../resources/10_data_science/klassifikation.png)

## Aufgabe 2: k-Nearest-Neighbor

### Aufgabe 2.1: kNN Zuordnungen bestimmen

Das untenstehende Diagramm zeigt die Verteilung der Attributswerte eines zweidimensionalen Trainingsdatensatzes inklusive der zugehörigen Labels als Farben.

Bestimmen Sie den jeweils kleinsten (ganzzahligen) Wert für k, mit dem der k-Nearest-Neighbor (kNN) Algorithmus die zusätzlichen Datenpunkte in das gewünschte Cluster einordnert. Bei gleichem k Ordnert der Algorithmus den Punkt in das Cluster mit der niedrigeren Ziffer ein. Als Abstandsmaß wird die Manhatten-Distanz verwendet.

In [None]:
# ==== Parameters ====
variant = 1
points_to_classify = ["7,3", "5,5", "-4,3"]
num_points = 50
num_points_tiny_cluster = 5
num_clusters = 4
grid_size = 7
grid_offset = [0, 0]
seed = 42

# ==== Data Generation ====
generator = np.random.default_rng(seed)
points = np.concatenate(
 (
 generator.integers(low=-grid_size, high=grid_size, size=(2, num_points), endpoint=True),
 generator.integers(
 low=-grid_size, high=grid_size, size=(2, num_points_tiny_cluster), endpoint=True
 ),
 ),
 axis=1,
)

assignments = np.concatenate(
 (
 generator.integers(low=1, high=num_clusters - 1, size=num_points, endpoint=True),
 np.ones(shape=num_points_tiny_cluster, dtype=int) * num_clusters,
 )
)

data = pd.DataFrame({"x": points[0], "y": points[1], "cluster": assignments})
data = data.drop_duplicates(["x", "y"], keep="last")
groups = data.groupby("cluster")

default_markers = ["o", "v", "P", "s", "^", "*", "D"]
default_colors = [plt.cm.viridis(i) for i in np.linspace(0, 1, num_clusters)]

fig, ax = plt.subplots(figsize=(5, 5))
legend_elements = []

for idx, (group_name, group_data) in enumerate(groups):
 color = default_colors[idx % len(default_colors)]
 marker = default_markers[idx % len(default_markers)]
 ax.scatter(
 x=group_data.x,
 y=group_data.y,
 color=color,
 marker=marker,
 s=80.0,
 linewidths=1.0,
 )
 legend_elements.append(
 Line2D([0], [0], marker=marker, color=color, label=group_name, linewidth=0)
 )

if points_to_classify:
 for point in points_to_classify:
 x, y = map(int, point.split(","))
 ax.scatter(x, y, color="red", marker="x", s=120.0, linewidths=4)

plt.figlegend(
 handles=legend_elements,
 title="Cluster-Zuweisungen",
 ncols=num_clusters,
 framealpha=1.0,
)

ax.set_xlabel("x")
ax.set_ylabel("y")

# Fix: Set linear scaling for both axes
ax.set_xlim(-grid_size - 0.5, grid_size + 0.5)
ax.set_ylim(-grid_size - 0.5, grid_size + 0.5)

# Set ticks at integer positions for linear scaling
ax.set_xticks(np.arange(-grid_size, grid_size + 1, 1))
ax.set_yticks(np.arange(-grid_size, grid_size + 1, 1))

# Minor ticks for finer grid
ax.set_xticks(np.arange(-grid_size, grid_size + 1, 1), minor=True)
ax.set_yticks(np.arange(-grid_size, grid_size + 1, 1), minor=True)

ax.grid(True, which="both", alpha=0.4)
ax.set_aspect("equal", adjustable="box")
ax.set_axisbelow(True)

plt.tight_layout()
plt.show()

| Punkt (x,y)| gewolltes Cluster | notwendiges k |
|------------|-------------------|---------------|
| (7,3) | 4 | |
| (5,5) | 3 | |
| (-4,5) | 1 | |

## 2.2 k-Nearest Neighbors (kNN) am Beispiel Dokumentenzuordnung*

Die kNN-Suche (k-Nearest Neighbors) ist ein essenzieller Bestandteil moderner KI-Systeme. Sie ermöglicht es beispielsweise, aus einer großen Menge indizierter Dokumente die relevantesten Nachbarn für eine Anfrage zu finden. Dies wird häufig mit Vektorrepräsentationen von Texten umgesetzt, wobei die Ähnlichkeit meist über die euklidische Distanz oder Kosinus-Ähnlichkeit berechnet wird.

In der folgenden Aufgabe sollt ihr nun selbst den kNN-Algorithmus implementieren. Aus einer Auswahl mehrerer "Dokumente" (hier sind es der Einfachheit halber kurze Strings) wollen wir eine einfache Anfrage, wie z.B. "Was ist maschinelles Lernen?" senden können und das Dokument auswählen, dass am ehesten zur Anfrage passt.
Das bedeutet, es wird das Dokument ausgewählt, dessen Wörter eine besonders hohe Ähnlichkeit zu den Wörtern in der Anfrage haben.

Zuerst initialisieren wir dazu die "Dokumente":

In [None]:
# Dokumente sind kurze Strings
documents = [
 "Künstliche Intelligenz ist ein Teilgebiet der Informatik.",
 "Maschinelles Lernen ist eine Methode der KI.",
 "Neuronale Netze sind Modelle für maschinelles Lernen.",
 "Retrieval Augmented Generation nutzt kNN-Suche.",
 "Die euklidische Distanz misst die Ähnlichkeit von Vektoren.",
]

In [None]:
# Speichere alle verschiedenen Wörter aus den Dokumenten
vocab = sorted(
 list(set(word.lower() for doc in documents for word in doc.replace(".", "").split()))
)
print("Vokabular:", vocab)

Mit Strings können wir nicht gut rechnen. Daher suchen wir einen Weg, die Dokumente als Zahlen darzustellen.
Wir entscheiden uns dazu, ein Dokument zu einen Vektor umzuwandeln, der aus Zahlen besteht.
Der 1. Eintrag des Vektors steht dabei für die Anzahl, wie oft die erste Vokabel aus der Vokabelliste im Dokument vorkommt, usw.

In der Praxis werden deutlich komplexere Vektorisierungen verwendet, wie z.B. TF-IDF oder Word Embeddings, aber für diese Aufgabe reicht es, die Häufigkeit der Wörter zu zählen.

In [None]:
# Bekommt einen Text (text) und Vokabelliste (vocab).
# Gibt eine Liste zurück, die für jede Vokabel angibt, wie oft es im text vorkommt
# (i-tes Element ist die Anzahl der i-ten Vokabel im Text)
def count_vocab_in_text(text: str, vocab: list[str]) -> list[int]:
 words = text.lower().replace(".", "").split()
 return [words.count(word) for word in vocab]


# Jedes Dokument wird zu einen Vektor umgewandelt. Wir speichern sie uns in eine Liste:
vectorized_docs = [count_vocab_in_text(doc, vocab) for doc in documents]

Nachdem wir die Dokumente zu Vektoren umgewandelt haben, die aus Zahlen (Anzahl der Vokabeln im Dokument) besteht, können wir nun die eigentliche Anfrage stellen:

In [None]:
# Anfrage als String
query = "Was ist maschinelles Lernen?"

# Anfrage als Vektor
query_vector = count_vocab_in_text(query, vocab)

Hier kommt nun kNN ins Spiel. Wir haben eine Liste an Dokumenten, die zu Vektoren umgewandelt wurden (`vectorized_docs`), und wir haben die Anfrage, die auch zu einem Vektor umgewandelt wurde (`query_vector`).
Implementiert nun den kNN-Algorithmus anhand der euklidischen Distanz:
 
Hinweis:
- Berechnet erst die Distanzen von der Anfrage zu allen Dokumenten
- Sortiert die Distanzen aufsteigend
- Wähle die ersten k Dokumente mit geringsten Abstand

In [None]:
def euclidean_distance(a: list[int], b: list[int]) -> float:
 return float(np.linalg.norm(np.array(a) - np.array(b)))


def knn_search(
 query_vec: list[int], doc_vecs: list[list[int]], k: int = 2
) -> tuple[list[int], list[float]]:
 """Rückgabewert: Indizes der k Dokumente, Distanzen"""
 # Hier kNN implementieren
 # TODO: Berechnet erst die Distanzen von der Anfrage zu allen Dokumenten
 # TODO: Sortiert die Distanzen aufsteigend
 # TODO: Wähle die ersten k Dokumente mit geringsten Abstand
 return NotImplemented


# Führe kNN aus und gebe das Ergebnis aus
indices, dists = knn_search(query_vector, vectorized_docs, k=2)
print("Die nächsten Nachbarn sind:")
for idx, dist in zip(indices, dists):
 print(f"Dokument {idx}: '{documents[idx]}' mit Distanz {dist:.2f}")

**Hinweis:**
- Anders, als beim klassischen kNN-Algorithmus klassifizieren wir hier die Dokumente nicht, sondern ranken sie lediglich nach kürzester Distanz. Beim klassischen kNN würde der Datenpunkt die Klasse der Mehrheit der k Datenpunkte mit kürzester Distanz annehmen.
- In diesem Kurs betrachten wir lediglich eine sehr einfache Implementierung des kNN-Algorithmus. In der Praxis werden deutlich komplexere Algorithmen verwendet, die z.B. auf Baumstrukturen basieren, um die Suche zu beschleunigen.

## Aufgabe 3: Klassifikation in der Praxis

Im Folgenden werden wir einen Datensatz klassifizieren. Wir werden Sie in den einzelnen Teilaufgaben durch die nötigen Schritte führen. 

Wir werden für die meisten Teilaufgaben Funktionalitäten von scikit-learn nutzen. 

Im Folgenden geht es um einen Datensatz mit Titanic-Passagieren. Sie werden ein Modell bauen, das anhand verschiedener Attribute vorhersagt, ob Passagiere den Schiffsuntergang überlebt haben oder nicht. 


### Aufgabe 3.1: Datensatz einlesen

In [None]:
# Datasatz einlesen und Spalten benennen
titanic = pd.read_csv("../resources/10_data_science/titanic-train.csv")
titanic.columns = [
 "PassengerId",
 "Survived",
 "Pclass",
 "Name",
 "Sex",
 "Age",
 "SibSp",
 "Parch",
 "Ticket",
 "Fare",
 "Cabin",
 "Embarked",
]

# Erste Zeilen des Datensets ausgeben
titanic.head()

Der Datensatz enthält folgende "Attribute" (= "Variablen" = "Features")
* Survived - Hat überlebt? (0 = No; 1 = Yes)
* Pclass - Passagierklasse (1 = erste; 2 = zweite; 3 = dritte)
* Name - Name
* Sex - Geschlecht
* Age - Alter
* SibSp - Zahl der Geschwister/Partner an Bord
* Parch - Zahl der Eltern/Kinder an Bord
* Ticket - Ticketnummer
* Fare - Ticketkosten (in britischen Pfund)
* Cabin - Kabinennummer
* Embarked - Zustiegshafen (C = Cherbourg; Q = Queenstown; S = Southampton) 

Unser Modell soll die Spalte `Survived` vorhersagen, also ob Passagiere überlebt haben.

Da wir ein Modell zur Vorhersage des Überlebens von Passagieren der Titanic aufbauen, wird unser Ziel die Variable "Survived" sein. Um sicherzustellen, dass es sich um eine binäre Variable handelt, verwenden wir die Funktion countplot() von Seaborn.

### Aufgabe 3.2: Die Daten kennen lernen
Ein wichtiger erster Schritt ist es, den Datensatz, mit dem man arbeitet, kennen zu lernen. `scikit-learn`, `pandas`, und `seaborn` bieten dazu zum Beispiel folgende nützliche Funktionen:

- `dataframe.info()`: zeigt die Datentypen eines DataFrames. Dies sind im Moment noch automatisch erkannte Datentypen.
- `dataframe.describe()`: zeigt Informationen über Verteilungen numerischer Attribute
- `dataframe.plot(kind="scatter", x="ATTRIBUT1", y="ATTRIBUT2")`: plottet zwei Attribute eines Datensatzes gegeneinander
- `dataframe[["ATTRIBUT1", "ATTRIBUT2"]].head()`: Zeigt einen Teil der Attribute
- `sns.countplot(x="ATTRIBUT", data=dataframe)`: Visualisiert die Werteverteilung eines Attributs
- `dataframe.isnull()`: Zeigt fehlende Werte an
- `dataframe.isnull().sum()` zeigt die Zahl der fehlenden Werte pro Spalte

Wenden Sie verschiedene dieser Funktionen auf den Titanic-Datensatz an. Fragen:
- Welche Informationen lernen Sie über den Datensatz? 
- Welche der Attribute werden aktuell als numerisch gesehen, welche als kategorisch? Sind die Datentypen sinnvoll?
- Wie viele Werte nimmt das Attribut `Survived` an?
- In welchen Spalten gibt es fehlende Werte?
- Welche der Attribute halten Sie für relevant, um das Überleben vorherzusagen?

In [None]:
# your code goes here

### Aufgabe 3.3: Mit fehlenden Werten umgehen
Fehlende Werte können großen Einfluss auf Datenanalysen haben. Manche Modelle können mit fehlenden Werten nicht umgehen. Es gibt verschiedene Wege, mit fehlenden Werten umzugehen (Stichworte: imputation, omission, analysis). 

Aufgabe: Entfernen Sie alle Attribute, die fehlende Werte enthalten (außer "Embarked", dies werden wir später separat behandeln) . Entfernen Sie außerdem PassengerID, Name, und Ticket, da diese vermutlich keinen Einfluss auf das Überleben haben. 

Hierzu ist die Funktion `drop()` hilfreich: 


In [None]:
# your code goes here

Falls Sie die Attribute korrekt entfernt haben, haben Sie nun noch 7 Attribute und nur die Variable 'Embarked' enthält noch 2 Nullwerte. 

In [None]:
titanic_data.isnull().sum()

Hier entfernen wir die entsprechenden Datenpunkte (da das Attribut generell nützlich ist):

In [None]:
# Verbliebene Datenpunkte mit fehlenden Werten entfernen
titanic_data.dropna(inplace=True)

# Check: keine fehlenden Werte mehr
titanic_data.isnull().sum()

In [None]:
titanic_data.head()

### Aufgabe 3.4: Mit kategorischen Attributen umgehen

Logistische Regression kann nicht mit kategorischen Attributen umgehen (mehr dazu später). Daher müssen kategorische Attribute in numerische umgewandelt werden. Hierzu wird üblicherweise "dummy coding" eingesetzt. Dabei wird ein kategorisches Attribut von mehreren "dummy" Attributen repräsentiert.

Beispiel einer kategorischen Variable "Farbe":

In [None]:
bsp = pd.DataFrame({"Farbe": ["rot", "blau", "schwarz"]})
bsp

Dummy Coding würde für dieses kategorische Attribut drei Dummy-Attribute erstellen:

In [None]:
pd.get_dummies(bsp.Farbe)

Aufgabe: Wandeln Sie alle kategorischen Attribute des Datensets in numerische um. Verwenden Sie hierzu die [get_dummies()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html) Funktion:

```python
# dummies erzeugen
dummies_ATTRIBUT1 = pd.get_dummies(titanic_data['ATTRIBUT'], drop_first=True)
# ...

# dummies zum Datenset hinzufügen
titanic_dmy = pd.concat([titanic_data, dummies_ATTRIBUT1, dummies_ATTRIBUT2,...], axis=1)

# kategorische Attribute aus dem Datenset entfernen
titanic_dmy.drop(['ATTRIBUT1', 'ATTRIBUT2', ...], axis=1, inplace=True)
```

Hinweis: Der Parameter `drop_first=True` sorgt dafür, dass eines der Dummy-Attribute ausgelassen wird, um redundante Informationen zu entfernen.

In [None]:
# your code goes here

### Aufgabe 3.5: Mit korrelierten Attributen umgehen

Korrelierte Attribute können bei logistischer Regression Probleme verursachen. Wir werden anhand einer Korrelations-Matrix korrelierte Attribute identifizeren und aus dem Datensatz entfernen. 

Eine Korrelations-Matrix zeigt für jedes Attribut-Attribut-Paar die Korrelation an: von 1 für stark positive Korrelation, über 0 für keine Korrelation, zu -1 für stark negative Korrelation.

Eine Ausgabe der Matrix als Heatmap kann nützlich sein.

In [None]:
# Korrelationsmatrix
round(titanic_dmy.corr(), 2)

In [None]:
# Ausgabe als Heatmap

# Farbpalette mit zwei Extremen (für negative und positive Korrelationen)
cmap = sns.diverging_palette(10, 220, as_cmap=True)

# Heatmap zeichnen
sns.heatmap(
 titanic_dmy.corr(),
 cmap=cmap,
 vmax=1.0,
 vmin=-1.0,
 center=0,
 square=True,
 linewidths=0.5,
 cbar_kws={"shrink": 0.5},
)
plt.show()

**Frage:** Welche Attributpaare sind am stärksten korreliert?

Es wäre denkbar, die Attribute, die korreliert sind, zu entfernen. Dies werden wir der Einfachheit halber nicht tun.

### Aufgabe 3.6: Vorbereiten der Daten für Modell-Training

In [None]:
# Zerlegen in Trainingsattribute (alles außer 'Survived') und Labels ('Survived')
X = titanic_dmy.drop("Survived", axis=1).values
y = titanic_dmy.loc[:, "Survived"].values

# Aufteilung in Trainingsset und Testset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=25)

### Aufgabe 3.7: Modell fitten und analysieren

Wir fitten nun ein logistisches Regressionsmodell anhand der Trainingsdaten:

In [None]:
lr_model = LogisticRegression(solver="liblinear")
lr_model = lr_model.fit(X_train, y_train)

Analysieren Sie nun die Qualtiät diese Modells. Hilfreiche Funktionen daüfr sind:
- `y_train_pred = model.predict(X_train)` und `y_train_pred = model.predict(X_test)`: generiert Modell-Vorhersagen für die gegebenen Datenpunkte
- `sklearn.metrics.confusion_matrix(y_test, y_test_pred)`: erstellt die Konfusionsmatrix für Modell-Vorhersagen

Vergleichen Sie die Qualität zu zwei Modellen, die gar nicht oder nicht bis zum Ende trainiert wurden.

In [None]:
# Untrainiertes Modell:
lr_model_unfitted = LogisticRegression(solver="liblinear", max_iter=0)
lr_model_unfitted = lr_model_unfitted.fit(X_train, y_train)

# Nicht fertig trainiertes Modell:
lr_model_partially_fitted = LogisticRegression(solver="liblinear", max_iter=3)
lr_model_partially_fitted = lr_model_partially_fitted.fit(X_train, y_train)

# Die Warnungen können Sie ignorieren, da wir bewusst schlechte Modelle trainieren

In [None]:
# your code goes here