# Data Streams Management – Anfrageoperatoren: Aufgaben (Lösungen)


## Aufgabe 1: Windowing

In den folgenden Aufgaben wollen wir die Konzepte des Windowing vertiefen. Gegeben ist ein Timed Stream auf dem wir Tupel- sowie Zeit-basierte Fenster erstellen, auf denen wir Anfragen stellen.

In [None]:
import random

from isda_streaming.data_stream import DataStream, TimedStream
from isda_streaming.synopsis import BloomFilter, CountMinSketch, ReservoirSample

random.seed(42)

data = [5, 10, 7, 8, 12, 2, 6, 7, 11, 15, 7, 11, 1, 10, 21, 3, 4, 9, 8, 2]
timestamps = [
    0.0,
    1.0,
    2.0,
    3.0,
    5.0,
    6.0,
    7.0,
    9.0,
    14.0,
    15.0,
    16.0,
    17.0,
    18.0,
    18.5,
    19.0,
    19.5,
    21.0,
    22.5,
    23.5,
    25.0,
]
timed_stream = TimedStream().from_collection(data, timestamps)
print(timed_stream)

### Aufgabe 1.1: Landmark Windows

#### Aufgabe 1.1.1: Landmark Windows - Tuple Basiert

Es soll ein Tupel-basiertes Landmark-Window (Größe 5) erstellt werden. Bestimmen Sie pro Fenster den maximalen Wert. Geben Sie sich zusätzlich die Windows selbst aus. 

In [None]:
# your code here

In [None]:
#### Musterlösung
w1 = timed_stream.landmark_tuple_window(5)
print(w1)

result = w1.aggregate("max")
print(result)

#### Aufgabe 1.1.2: Landmark Windows - Zeit Basiert

Es soll ein Zeit-basiertes Landmark-Window alle 10 Sekunden erstellt werden. Bestimmen Sie pro Fenster den vorletzten Wert. Geben Sie sich zusätzlich die Windows selbst aus. 

In [None]:
# your code here

In [None]:
#### Musterlösung
w2 = timed_stream.landmark_time_window(10.0)
print(w2)


def get_second_to_last_element(window: list):
    return window[-2]


result = w2.apply(get_second_to_last_element)
print(result)

### Aufgabe 1.2: Tumbling Windows

#### Aufgabe 1.2.1: Tumbling Windows - Tuple Basiert

Erstellen Sie ein Tupel-basiertes (Größe 5) Tumbling Window und lassen Sie sich die Durchschnittswerte pro Fenster ausgeben.

In [None]:
# your code here

In [None]:
#### Musterlösung
w1 = timed_stream.tumbling_tuple_window(5)
print(w1)

result1 = w1.aggregate("mean")
print(result1)

#### Aufgabe 1.2.2: Tumbling Windows - Zeit Basiert*

Erstellen Sie ein Zeit basiertes (10 Sekunden) Tumbling Window und lassen Sie sich die Durchschnittswerte pro Fenster ausgeben.

In [None]:
# your code here

In [None]:
#### Musterlösung

w2 = timed_stream.tumbling_time_window(10.0)
print(w2)

result2 = w2.aggregate("mean")
print(result2)

### Aufgabe 1.3: Sliding Windows

#### Aufgabe 1.3.1: Sliding Windows - Tuple Basiert*

Erstellen Sie ein Tupel-basiertes Window mit 8 Elementen und einem Slide-Faktor von 4. Zusätzlich sollen Sie eine Methode erstellen, die für alle Werte eines Fensters die Summe bildet. Wenden Sie diese dann auf Ihre Windows an. Benutzen Sie in diesem Fall nicht `.aggregate('sum')`!

In [None]:
# your code here

In [None]:
#### Musterlösung
w1 = timed_stream.sliding_tuple_window(8, 4)
print(w1)


def sum_all(value1, value2):
    return value1 + value2


result = w1.reduce(sum_all)
print(result)

#### Aufgabe 1.3.2: Sliding Windows - Zeit Basiert

Teilen Sie den Stream nun in Zeit-basierte Sliding Windows von 10 Sekunden mit einer Verschiebung von 5 Sekunden auf. Lassen Sie sich zusätzlich die Anzahl an Elementen in jedem Fenster ausgeben.

In [None]:
# your code here

In [None]:
#### Musterlösung
w2 = timed_stream.sliding_time_window(10.0, 5.0)
print(w2)

result = w2.aggregate("count")
print(result)

### Aufgabe 1.4: Dataflow-Pipeline

In dieser Aufgabe möchten wir eine vollständige Dataflow-Pipeline bauen. Gegeben ist ein Finanzticker, der uns die Daten einiger Automobilhersteller zurückgibt. Diese haben wir hier der Einfachheit wegen als Tupel mit dem Markennamen in Kleinbuchstaben und einem int-Wert als aktuellem Aktienkurs. Zudem hat jedes Tupel in unserem TimedStream auch noch einen zugehörigen Zeitstempel, der uns sagt, wann das Update zum jeweiligen Aktienkurs eingetroffen ist.

In [None]:
timed_stream = TimedStream().from_csv("../resources/09_data_streams/finanzticker_1.csv")
print(timed_stream)

#### Aufgabe 1.4.1

Unser Finanzticker gibt uns momentan die Werte für die Marken BMW, Ferrari, Hyundai, Mercedes, Suzuki & Toyota aus. Unser Chef ändert jedoch oft seine Meinung und möchte nun von den gennanten Herstellern nur noch die aus Asien haben. Schreiben Sie eine weitere Methode, die checkt, ob eines unserer Tupel von einem asiatischen Fahrzeughersteller ist.

In [None]:
# your code here

In [None]:
#### Musterlösung
def filter_asian_cars(x):
    if x[0] == "suzuki" or x[0] == "hyundai" or x[0] == "toyota":
        return True
    return False


result = timed_stream.filter(filter_asian_cars)
print(result)

#### Aufgabe 1.4.2

Diesen Finanzticker haben wir uns selbst erstellt, nun ist uns jedoch aufgefallen, dass uns bei der Implementierung ein Fehler passiert sein muss. Die Werte für den aktuellen Aktienkurs sind doppelt so groß. Schreiben Sie nun eine Methode, die für unsere Tupel den Wert des Aktienkurses halbiert.

In [None]:
# your code here

In [None]:
#### Musterlösung
def half_stock_price(x):
    return (x[0], x[1] / 2)


result = timed_stream.map(half_stock_price)
print(result)

#### Aufgabe 1.4.3

Zuletzt wollen wir noch eine Methode schreiben, die wir einer reduce-Funktion übergeben können und die uns das Tupel mit dem höchsten Aktienkurs zurückgibt. 

In [None]:
# your code here

In [None]:
#### Musterlösung
def find_max(x, y):
    if x[1] > y[1]:
        return x
    return y


result = timed_stream.reduce(find_max)
print(result)

#### Aufgabe 1.4.4
 
Kombinieren Sie die vorherigen Lösungen zu einer Pipeline. Bestimmen Sie alle 5 Sekunden den maximalen Aktienkurs asiatischer Automobilhersteller in den letzten 5 Sekunden. 

**Hinweis**: Vergessen Sie nicht, die Kurse zu korrigieren. 

In [None]:
def pipeline_windowing_1(input_stream: TimedStream):
    return  # your pipeline here


result = pipeline_windowing_1(timed_stream)
print(result)

# comparison with expected result
expected = DataStream().from_collection(
    [
        (("hyundai", 38), 0.0, 5.0),
        (("hyundai", 35), 5.0, 10.0),
        (("suzuki", 32), 10.0, 15.0),
        (("hyundai", 40), 15.0, 20.0),
        (("suzuki", 35), 20.0, 25.0),
        (("suzuki", 33), 25.0, 30.0),
    ]
)

print("Does the output stream match the expected one?", result == expected)

In [None]:
#### Musterlösung
def pipeline_windowing_1(input_stream: TimedStream):
    return (
        input_stream.filter(filter_asian_cars)
        .map(half_stock_price)
        .tumbling_time_window(5.0)
        .reduce(find_max)
    )


print(pipeline_windowing_1(timed_stream))

#### Aufgabe 1.4.5*

Kombinieren Sie die vorherigen Lösungen zu einer Pipeline. Bestimmen Sie alle 5 Sekunden den durchschnittlichen Aktienkurs asiatischer Automobilhersteller in den letzten 10 Sekunden. 

**Hinweis**: Vergessen Sie nicht, die Kurse zu korrigieren. 

**Hinweis**: Beachten Sie, dass wir auf Tupeln arbeiten. Die Hersteller der Aktienkurs Updates sind für uns bei der Berechnung des Durchschnittspreises aller Kursupdates nicht von Bedeutung. Möglicherweise müssen Sie die Daten noch vor der Einteilung in Fenster verändern.

In [None]:
# your code here


def pipeline_windowing_2(input_stream: TimedStream):
    return  # your pipeline here


result = pipeline_windowing_2(timed_stream)
print(result)

# comparison with expected result
expected = DataStream().from_collection(
    [
        (30.4, 0.0, 10.0),
        (27.166666666666668, 5.0, 15.0),
        (25.75, 10.0, 20.0),
        (31.75, 15.0, 25.0),
        (30.0, 20.0, 30.0),
    ]
)

print("Does the output stream match the expected one?", result == expected)

In [None]:
#### Musterlösung
def break_up_tuple(x):
    return x[1]


def pipeline_windowing(input_stream: TimedStream):
    return (
        input_stream.filter(filter_asian_cars)
        .map(half_stock_price)
        .map(break_up_tuple)
        .sliding_time_window(10.0, 5.0)
        .aggregate("mean")
    )


print(pipeline_windowing(timed_stream))

## Aufgabe 2: Synopsen 

In den folgenden Teilaufgaben arbeiten Sie mit Synopsen.

### Aufgabe 2.1: Count-Min Sketch - Auswirkung der Datenverteilung bei Count-Min Sketches

Im Folgenden betrachten wir, wie sich der Count-Min Sketch verhält, wenn wir eine größere Anzahl von Elementen hinzufügen. Wenn die Anzahl der einzigartigen Elemente größer ist als die Anzahl der Einträge im Array, wird deutlich, wie der Count-Min Sketch mit Kollisionen umgeht und wie gut er die Häufigkeiten approximiert.

Konkret sollten wir mindestens mehr einzigartige Elemente einfügen, als wir Einträge im Array haben, da sonst auch ein Array von Zählern genügen würde und wir jedes Element ohne den Mehraufwand des Hashing und der wiederholten Updates pro Reihe genau zählen könnten. 

Erstellen Sie zwei neue Count-Min Sketches. Initialisieren Sie diese mit einer Breite von 16 und mit 3 Reihen. Fügen Sie dann jeweils 500 Elemente ein, wobei es genau 40 einzigartige Elemente geben sollte. Betrachten Sie, wie sich eine unterschiedliche Verteilung auf die Qualität der Approximierung auswirkt. Approximieren Sie jeweils konkret die Schlüssel 0 und 1. 

Diskutieren Sie, was Ihre Erwartungen sind, wie sich die Verteilung auf die Genauigkeit der Approximierung auswirken könnte. 

In [None]:
# Uniform Verteilung
data_stream = DataStream().from_collection([i % 40 for i in range(500)])
real_counts = [0 for x in range(40)]

In [None]:
# your code here

```{admonition} Musterlösung
:class: dropdown, hint
#### Musterlösung
Wir zeigen als Lösung zu dieser Aufgabe zwei Extremfälle: eine uniforme Verteilung, in der jeder Key 12 oder 13 
Mal vorkommt, und eine Zipf-Verteilung, bei der der Key "0" 461 Mal vorkommt und die restlichen Keys jeweils genau 
einmal.

Bei der uniformen Verteilung helfen uns die Hashfunktionen so gut wie möglich, aber Kollisionen zwischen den 
Eingaben und ihren Hashwerten sind unausweichlich. Nur in einigen wenigen Fällen ist die Approximation noch gut 
oder exakt (z. B. für Key "0"), aber in den meisten Fällen liegt die Approximation um ein Vielfaches daneben.

Bei der Zipf-Verteilung, bei der ein oder mehrere Keys sehr häufig vorkommen, gibt es einige Einträge im Array, 
die entsprechend häufig aktualisiert werden. Der "Tail" der Verteilung verhält sich dann relativ normalverteilt, 
wodurch die Kollisionen hier nicht so extrem sind. Dadurch fällt die durchschnittliche Approximation umso besser 
aus, je weniger eine uniforme Verteilung vorliegt.

Konkret kann man hier den Key "0" abfragen, um nach wie vor eine exakte Antwort zu erhalten, und den Key "1" 
abfragen, um eine Approximation zu erhalten, die um ein Vielfaches daneben liegt.
```


In [None]:
#### Musterlösung
data_stream = DataStream().from_collection([i % 40 for i in range(500)])
real_counts = [0 for x in range(40)]

cm2 = CountMinSketch(16, 3)
# Alle elemente in data_stream verarbeiten.
for element in data_stream:
    # Element in Count-min Sketch hinzufügen.
    cm2.update(element)
    # Echte Zähler zur kontrolle aktualisieren.
    real_counts[element] += 1

In [None]:
print(
    "Genaues Ergebnis für Key 0: ",
    real_counts[0],
    "- Approximation für Key 0: ",
    cm2.query(0),
    "-> Absoluter Fehler: ",
    abs(real_counts[0] - cm2.query(0)),
)

print(
    "Genaues Ergebnis für Key 1: ",
    real_counts[1],
    "- Approximation für Key 1: ",
    cm2.query(1),
    "-> Absoluter Fehler: ",
    abs(real_counts[1] - cm2.query(1)),
)

In [None]:
# Zipf Verteilung
data_stream2 = DataStream().from_collection([i if i < 40 else 0 for i in range(500)])
real_counts = [0 for x in range(40)]

In [None]:
# your code here

```{admonition} Musterlösung
:class: dropdown, hint
#### Musterlösung

Bei der Zipf-Verteilung, bei der ein oder mehrere Keys sehr häufig vorkommen, gibt es einige Einträge im Array, 
die entsprechend häufig aktualisiert werden. Durch den großen Anteil der "heavy-hitters", also der Keys, die sehr 
häufig vorkommen, werden diese gut approximiert. Der "Tail" der Verteilung, also die restlichen Keys, verhält 
sich relativ normalverteilt, wodurch die Kollisionen hier nicht so extrem sind wie bei einer Normalverteilteilung. 
Dadurch fällt die durchschnittliche Approximation umso besser aus, je weniger eine uniforme Verteilung 
vorliegt.

Konkret kann man hier den Key "0" abfragen, um sehr gute Approximationen zu erhalten / einen geneauen Wert erhalten. 
Aber auch der Key "1" wird nur um 2 überschätzt.
```


In [None]:
#### Musterlösung
data_stream2 = DataStream().from_collection([i % 40 if i < 40 else 0 for i in range(500)])
real_counts = [0 for x in range(40)]

cm3 = CountMinSketch(16, 3)
# Alle elemente in data_stream2 verarbeiten.
for element in data_stream2:
    # Element in Count-min Sketch hinzufügen.
    cm3.update(element)
    # Echte Zähler zur kontrolle aktualisieren.
    real_counts[element] += 1

In [None]:
print(
    "Genaues Ergebnis für Key 0: ",
    real_counts[0],
    "- Approximation für Key 0: ",
    cm3.query(0),
    "-> Absoluter Fehler: ",
    abs(real_counts[0] - cm3.query(0)),
)

print(
    "Genaues Ergebnis für Key 1: ",
    real_counts[1],
    "- Approximation für Key 1: ",
    cm3.query(1),
    "-> Absoluter Fehler: ",
    abs(real_counts[1] - cm3.query(1)),
)

### Aufgabe 2.2: Count-Min Sketch - Durchschnittlicher Absoluter Fehler

Zuvor haben wir das Verhalten der Verteilung auf die Approximierung nur anhand von einzelnen Werten bewertet. Das Verhalten könnte somit nur per Zufall so ausgefallen sein. Nun bestimmen wir den durchschnittlichen absoluten Fehler pro Verteilung. Um diesen Fehler zu berechnen, bestimmen wir die Summe der absoluten Differenzen zwischen der Approximation und dem erwarteten Ergebnis und teilen dies durch die Gesamtanzahl der einzigartig beobachteten Elemente. Die Formel lautet:$$Fehler = \frac{\sum_{n=1}|{query(x_n)}-y_n|}{|Elemente|}$$

Dabei ist $query(x_n)$ die Approximation für das Element $x_n$ und $y_n$ das erwartete Ergebnis. Die Summe wird über alle beobachteten Elemente durchgeführt und der Wert wird durch die Anzahl der einzigartigen Elemente geteilt.

In [None]:
# Uniformverteilung
# your code here

```{admonition} Musterlösung
:class: dropdown, hint
#### Musterlösung
Bei der Uniformverteilung haben wir genau 40 verschiedene Elemente beobachtet. Insgesamt gab es 500 Elemente, 
wobei jedes der Elemente 0 bis 19 genau 13-mal vorkam und die Elemente 20 bis 39 genau 12-mal vorkamen.
```


In [None]:
#### Musterlösung

sum = 0
expected1 = 13
expected2 = 12
for i in range(40):
    approx = cm2.query(i)
    if i < 20:
        sum += abs(approx - expected1)
    else:
        sum += abs(approx - expected2)
print(sum / 40)

In [None]:
# Zipfverteilung
# your code here

```{admonition} Musterlösung
:class: dropdown, hint
#### Musterlösung
Bei der Zipf-Verteilung haben wir jedes der 40 Elemente außer der Null genau einmal gesehen, während die Null 
461-mal vorkam.

Wie wir anhand der berechneten durchschnittlichen Fehler feststellen können, ist die Approximation im Durchschnitt 
deutlich besser, wenn ein oder mehrere Elemente sehr häufig auftreten. Eine Abweichung von 1.475 kann als relativ 
hoch angesehen werden, jedoch kann im Tutorium darauf hingewiesen werden, dass der Fehler und die 
Wahrscheinlichkeit des Fehlers tatsächlich durch die Parameter des Count-Min Sketch und ähnlicher Sketches 
parametrisiert werden können. Daraus ergibt sich die Möglichkeit, die erforderliche Breite und Höhe entsprechend 
anzupassen. Darüber hinaus ist eine Abweichung von 1.475 relativ gering, wenn eine viel größere Anzahl von 
Werten betrachtet wird und die Größenordnung entsprechend höher ist.
```


In [None]:
#### Musterlösung

sum = 0
expected1 = 461
expected2 = 1
for i in range(40):
    approx = cm3.query(i)
    if i == 0:
        sum += abs(approx - expected1)
    else:
        sum += abs(approx - expected2)
print(sum / 40)

### Aufgabe 2.3: Bloom-Filter

Erstellen Sie nun einen generellen Inhaltschecker. Erstellen Sie dafür einen Bloom-Filter mit 1500 Bits und 3 Hash-Funktionen. Erzeugen Sie dann einen Datenstrom. Fragen (query) Sie danach den Bloom-Filter ab, mit den Keys: Trump, Hello, SVW und interpretieren Sie die Ergebnisse. 

In [None]:
Artikel = """
Anklageschrift veröffentlicht
Schwere Vorwürfe gegen Trump
Der frühere US-Präsident Trump ist erneut angeklagt worden. Die Justiz beschuldigt ihn in 37 Punkten - darunter sind Vergehen, für die ihm bis zu zehn Jahre Haft drohen. Es ist die erste Anklage gegen einen Ex-Präsidenten auf Bundesebene. Der frühere US-Präsident Donald Trump wird im Zusammenhang mit dem Fund von Geheimdokumenten, die sich nach Ende seiner Amtszeit in seinem Besitz befanden, in 37 Punkten angeklagt. Die US-Justiz wirft Trump laut der jetzt veröffentlichten Anklageschrift unter anderem auch Verschwörung zur Behinderung der Ermittlungen vor.
Insgesamt werden sieben Kategorien von Vergehen aufgeführt. Trump wird unter anderem die vorsätzliche Aufbewahrung von Informationen der nationalen Verteidigung vorgeworfen. Dieser Punkt fällt unter das US-Spionagegesetz und kann mit bis zu zehn Jahren Haft bestraft werden.
Geheime Akten in der Dusche und im Lagerraum Hintergrund ist die Affäre um Trumps Umgang mit geheimen Regierungsunterlagen nach seinem Abschied aus dem Weißen Haus. In der Anklageschrift heißt es, dass einige der Kisten mit Geheimdienstdokumenten zeitweise in einem Raum in Trumps Privatanwesen Mar-a-Lago gelagert worden seien, in dem öffentliche Veranstaltungen stattgefunden hätten.
"Trump bewahrte seine Kartons mit Geheimdokumenten an verschiedenen Orten im Mar-a-Lago-Club auf - unter anderem in einem Ballsaal, in einem Badezimmer und einer Dusche, einem Büro, seinem Schlafzimmer und einem Lagerraum", heißt es weiter. Entsprechende Fotos wurden der Anklage beigefügt. In mindestens zwei Fällen habe Trump zudem Geheimdokumente anderen gezeigt. Ein bei Trump beschlagnahmtes Dokument aus dem Juni 2020 enthielt darüber hinaus Informationen zu den nuklearen Fähigkeiten eines anderen Landes.
Sonderermittler verspricht "zügiges Gerichtsverfahren" In einer Pressekonferenz stellte der zuständige Sonderermittler Jack Smith ein "zügiges Gerichtsverfahren" in Aussicht. "Beachten Sie, dass die Angeklagten in diesem Fall als unschuldig zu gelten haben, bis ihre Schuld vor Gericht zweifelsfrei bewiesen ist", sagte Smith. Die Anklageschrift zeige aber den "Umfang und die Schwere" der Vorwürfe gegen Trump. Auch Trumps persönlicher Assistent wurde angeklagt. Smith betonte, dass der Schutz von Informationen der Landesverteidigung von entscheidender Bedeutung für die Sicherheit der USA sei. "Verstöße gegen diese Gesetze bringen unser Land in Gefahr", sagte Smith. Erste Anklage gegen eines Ex-Präsidenten auf Bundesebene Die Bundespolizei FBI hatte im August Trumps Anwesen in Florida untersucht und dort zahlreiche Verschlusssachen beschlagnahmt, einige mit höchster Geheimhaltungsstufe. Weil der Ex-Präsident die Unterlagen lange nach seinem Abschied aus dem Amt in seinem Privathaus aufbewahrt hatte, könnte er sich strafbar gemacht haben. Nachdem Trump im November offiziell verkündete, bei der Wahl 2024 erneut anzutreten, setzte das Justizministerium den unabhängigen Sonderermittler Smith ein, um die politisch heiklen Ermittlungen gegen Trump auszulagern. Es ist das erste Mal, dass gegen einen Ex-Präsidenten der USA auf Bundesebene Anklage erhoben wurde. Biden: Habe nicht mit Justizminister gesprochen Amtsinhaber Joe Biden sagte am Freitag, er habe keinen Kontakt mit Justizminister Merrick Garland gehabt. "Ich habe überhaupt nicht mit ihm gesprochen und werde auch nicht mit ihm sprechen. Und dazu habe ich keinen Kommentar". Damit spielte Biden auf die Vorwürfe von Trump und seinen Unterstützerinnen und Unterstützern an, die Macht seines Amtes zu missbrauchen, um Trump als politischen Gegner loszuwerden. Biden hatte in der Vergangenheit immer wieder gesagt, dass er dem Justizministerium weder Anweisungen gebe noch Kontakt in der Sache suche.
Trump drohen weitere Verfahren Trump reagierte auf die erneute Anklage in seinem Social-Media-Dienst Truth Social. Dort griff er Sonderermittler Smith persönlich an: Dessen Frau sei ein "Trump-Hasser", schrieb der Ex-Präsident. Trump war im April bereits im Zusammenhang mit Schweigegeldzahlungen an einen Pornostar auf Bundesstaaten-Ebene in New York angeklagt worden. In einem Zivilverfahren wurde er vor wenigen Wochen dann vor Gericht für einen sexuellen Übergriff verantwortlich gemacht. Bislang wiegen die Vorwürfe im Zusammenhang mit den Dokumenten juristisch am schwersten. Es wird aber noch in anderen Fällen gegen Trump ermittelt, im Zusammenhang mit seinen Versuchen, den Ausgang der Präsidentenwahl 2020 zu kippen. Es könnten also womöglich weitere Anklagen folgen - und die könnten ebenfalls gefährlich für ihn werden.
"""
# Quelle:https://www.tagesschau.de/ausland/amerika/usa-trump-anklageschrift-100.html#:~:text=Anklageschrift%20veröffentlicht%20Schwere%20Vorwürfe%20gegen%20Trump&text=Der%20frühere%20US%2DPräsident%20Trump,einen%20Ex%2DPräsidenten%20auf%20Bundesebene.

words = (
    Artikel.replace(" - ", " ")
    .replace("-", " ")
    .replace(".", "")
    .replace(",", "")
    .replace("/", "")
    .replace('"', "")
    .split()
)

In [None]:
# your code here

In [None]:
#### Musterlösung

bf2 = BloomFilter(1500, 3)
ds2 = DataStream().from_collection(words)
for tuple in ds2:
    bf2.update(tuple)

# Alle zuvor beobachteten Werte werden erneut als true klassifiziert, was hier "womöglich" bedeutet.
print(bf2.query("Trump"))

# Viele zuvor nicht gesehene Werte werden als definitv noch nicht gesehen klassifiziert
print(bf2.query("SVW"))

# Andere werden jedoch auch als "womöglich" klassifiziert, obwohl diese noch nicht gesehen wurden z.B. Englische Wörter.
print(bf2.query("Hello"))

### Aufgabe 2.4: Reservoir Sample

Wir erstellen einen Datenstrom mit 100.000 Elementen. Der Wertebereich sollte dabei im Intervall $[0, 100]$ liegen, wobei der Wert 0 50% der Zeit vorkommen sollte und die restlichen Werte 1 bis 100 jeweils 0,5% .

In [None]:
# der weights Vektor enthält die Wahrscheinlichkeiten des Vorkommens der Werte 0 (50%) sowie 1-100 (jeweils 0,5%)
weights = [100] + 100 * [1]
items = [i for i in range(101)]

data = random.choices(items, weights=weights, k=100000)

ds = DataStream().from_collection(data)

#### Aufgabe 2.4.1: Reservoir Sample - Updates 

Erstellen Sie nun ein Reservoir Sample mit 50 Einträgen und fügen Sie die Elemente des Datenstroms ein. 

In [None]:
# your code here

In [None]:
#### Musterlösung

rs2 = ReservoirSample(50)
for tuple in ds:
    rs2.update(tuple)
print(rs2)

#### Aufgabe 2.4.2: Reservoir Sample - Anfrage

Diskutieren Sie nun was eine gute Methode zur Approximierung ist, implementieren sie diese und testen Sie diese aus. Wenn ein Element nicht gefunden wird, dann wird bei Query Optimizern z.B. oftmals eine Uniformverteilung angenommen und 1 % zurückgegeben. 

Können Elemente, die nicht im Sample auftauchen, gut oder überhaupt approximiert werden? Frage die Keys 0 und 1 ab und interpretiere das Ergebnis. 

In [None]:
def query(sample, key):
    # your code here
    return

In [None]:
#### Musterlösung
def query(sample, key):
    sampleArray = sample.get_sample()
    sampleSize = sample.get_sample_size()
    n = sample.get_processed_elements()

    sum = 0
    for i in range(sampleSize):
        if sampleArray[i] == key:
            sum += 1
    if sum == 0:
        print("Element wurde nicht gefunden. Ersatzstrategie: ", end="")
        return 0.01 * n
    else:
        return (sum / sampleSize) * n


print(query(rs2, 0))
print(query(rs2, 2))