# SQL-DQL: Aufgaben


In [None]:
import duckdb

In [None]:
import hashlib


class Check:
    def __init__(self, con, hashes=None):
        self.con = con
        self.hashes = hashes or []

    def get_hash(self, df, consider_col_name: bool = False, consider_sorting: bool = False):
        """
        Get the hash of a DataFrame.

        consider_col_name: If True, the column names are not considered for the hash.
        consider_sorting: If True, the DataFrame is sorted before hashing.
        """
        df_str = df.astype(str)
        remaining = list(df_str.columns)
        ordered = []
        while remaining:
            min_cell, min_col = None, None
            for col in remaining:
                this_min = min(df_str[col].tolist())
                if min_cell is None or this_min < min_cell:
                    min_cell, min_col = this_min, col
            ordered.append(min_col)
            remaining.remove(min_col)

        df_ord = df_str[ordered]
        if not consider_sorting:
            df_sorted = df_ord.sort_values(by=ordered, ignore_index=True)
        else:
            df_sorted = df_ord

        dfString = df_sorted.to_csv(index=False, header=consider_col_name).encode("utf-8")
        digest = hashlib.md5(dfString).hexdigest()

        return digest

    def sql(self, sql: str, hashPrint: bool = False):
        """
        Execute SQL and check the result against a hash.
        """
        sqlResult = self.con.sql(sql)
        sqlDF = sqlResult.df()
        for consider_col_name in [True, False]:
            for consider_sorting in [True, False]:
                digest = self.get_hash(
                    sqlDF, consider_col_name=consider_col_name, consider_sorting=consider_sorting
                )
                if hashPrint:
                    print(
                        f"Hash: {digest} (consider_col_name={consider_col_name}, consider_sorting={consider_sorting})"
                    )
                for h in self.hashes:
                    if isinstance(h, str):
                        h = [h]
                    if digest == h[0]:
                        if len(h) > 1:
                            print(f"üéâ Richtige L√∂sung f√ºr Aufgabe {h[1]} üéâ")
                        else:
                            print("üéâ Richtige L√∂sung f√ºr eine Aufgabe üéâ")
        return sqlResult

    def close(self):
        self.con.close()

In [None]:
duck_con = duckdb.connect(database="../resources/06_sql_dql/uni_ue.duckdb", read_only=False)
duck_con.sql("SELECT * FROM sqlite_master").to_df()

In [None]:
from IPython.display import display_html

css = "style='display:inline; margin: 0px 20px 0px 0px; vertical-align: top;'"


display_html(
    duck_con.sql("select * from professoren")
    .to_df()
    .style.set_table_attributes(css)
    .set_caption("<strong>Professoren</strong>")
    ._repr_html_()
    + duck_con.sql("select * from studenten")
    .to_df()
    .style.set_table_attributes(css)
    .set_caption("<strong>Studenten</strong>")
    ._repr_html_()
    + duck_con.sql("select * from vorlesungen")
    .to_df()
    .style.set_table_attributes(css)
    .set_caption("<strong>Vorlesungen</strong>")
    ._repr_html_()
    + duck_con.sql("select * from voraussetzen")
    .to_df()
    .style.set_table_attributes(css)
    .set_caption("<strong>Voraussetzungen</strong>")
    ._repr_html_()
    + duck_con.sql("select * from hoeren")
    .to_df()
    .style.set_table_attributes(css)
    .set_caption("<strong>H√∂ren</strong>")
    ._repr_html_()
    + duck_con.sql("select * from pruefen")
    .to_df()
    .style.set_table_attributes(css)
    .set_caption("<strong>Pr√ºfen</strong>")
    ._repr_html_()
    + duck_con.sql("select * from assistenten")
    .to_df()
    .style.set_table_attributes(css)
    .set_caption("<strong>Assistenten</strong>")
    ._repr_html_(),
    raw=True,
)

In [None]:
con = Check(
    duck_con,
    hashes=[
        ["82c5f00103c8fdc496e60e58a092ccd3", "1.1"],
        ["893e57904471455be8fe2e88be78b42f", "1.2"],
        ["9dc1d3ebc2f41494f72695cd4d85998e", "1.3"],
        ["45910b56c5f8023603d5d0b6edd8df4f", "1.4"],
        ["5ca534e9f807a0629b4fe17f7fa5352c", "1.5"],
        ["1cbbe6645d90c69fd180e67ce6269323", "1.6"],
        ["736c7e7a6f3009aa826b74e3e0a0b82e", "1.7.1"],
        ["16d7a32f47fd82ed90a8ea1c76a79dec", "1.7.2"],
        ["969baded3818069b0d4c1c37f63f3107", "1.7.3"],
        ["26affab1d343c6ddff7a5da3f4e190b4", "1.8"],
        ["f788bb6ffdff1f437abaeaf2b443adbf", "1.9"],
        ["550ce8cafb2b80935ccd517c43e68125", "1.10"],
    ],
)

### Aufgabe 1

Formulieren Sie zu den folgenden Aussagen passende SQL-DQL Anfragen.

#### Aufgabe 1.1
Alle Studierenden.

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 1.2
Die Namen der Studierenden, die im zweiten Semester sind. 

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 1.3
Die Namen aller Studierenden und die Vorlesungsnummern, die Sie h√∂ren. H√∂rt eine studierende Person keine Vorlesung, so soll diese Person nicht in der Ergebnisrelation auftauchen.

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 1.4
Die Namen aller Studierenden, die keine Vorlesung besuchen.

In [None]:
con.sql(
    """
    
"""
)

#### Aufgabe 1.5
Die Namen aller Studierenden und Professor*innen.

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 1.6
Die Matrikelnummern aller Studierenden und die Anzahl der von ihnen besuchten Vorlesungen. Geben Sie nur Studierende aus, welche mindestens 3 Vorlesungen besuchen. 

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 1.7
Die Matrikelnummern aller Studierenden und die Anzahl der von ihnen besuchten Vorlesungen. Auch Studierende, die keine Vorlesungen besuchen, sollen ausgegeben werden. Geben Sie die Ergebnisinstanzen absteigend sortiert nach der Anzahl der besuchten Vorlesungen an. 

#### Aufgabe 1.7.1 

Bestimmen Sie im ersten Schritt nur die Matrikelnummern aller Studierenden und die Anzahl der von ihnen besuchten Vorlesungen, wenn diese Studierenden mindestens eine Vorlesung besuchen. Geben Sie die Ergebnisinstanzen absteigend sortiert nach der Anzahl der besuchten Vorlesungen an.

Hinzuf√ºgen: Bei gleicher Anzahl sotiere nach der Matrikelnummer aufsteigend

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 1.7.2

Bestimmen Sie nun die Matrikelnummern aller Studierenden, welche keine Vorlesungen besuchen, und gebe sie die Matrikelnummer aus zusammen mit dem Wert 0 in einer Spalte `Anzahl`. 

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 1.7.3 

Bestimmen Sie nun das Ergebnis der Hauptanfrage: 

Die Matrikelnummern aller Studierenden und die Anzahl der von ihnen besuchten Vorlesungen. Auch Studierende, die keine Vorlesungen besuchen, sollen ausgegeben werden. Geben Sie die Ergebnis-Instanzen absteigend sortiert nach der Anzahl der besuchten Vorlesungen an. 

Hinzuf√ºgen: Bei gleicher Anzahl sotiere nach der Matrikelnummer aufsteigend

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 1.8*
Geben Sie die Namen der Vorlesungen an, welche keine Nachfolgevorlesungen haben.

In [None]:
con.sql(
    """
                     
"""
)

#### Aufgabe 1.9*
Die Namen von Professoren und Professorinnen und die Durchschnittsnote, welche Studierende bei diesen erzielen. Sortieren Sie das Ergebnis absteigend nach der Durchschnittsnote. 

Hinzuf√ºgen: Bei gleicher Durchschnittssnote sotiere nach dem Namen.

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 1.10*
Die Namen der Studierenden, welche ein Modul belegen und auch parallel ein darauf aufbauendes (Nachfolger) Modul belegen. 

In [None]:
con.sql(
    """

"""
)

In [None]:
con.close()

### Aufgabe 2

Im Folgenden arbeiten wir mit dem Ihnen bekannten Regattaschema. 

Formulieren Sie zu den folgenden Aussagen passende SQL-DQL Anfragen.

![](../resources/05_relationale_algebra/regatta.png)

Zuerst √∂ffnen wir die Datenbank.

In [None]:
duck_con = duckdb.connect("../resources/06_sql_dql/wettfahrt_ue.duckdb", read_only=False)

In [None]:
con = Check(
    duck_con,
    hashes=[
        ["93a65e62fc34df872038fc57f8f9fa2a", "2.1"],
        ["933e5df76f96d65c4bfbe7145a1e301a", "2.2"],
        ["eaeedaa7cc7e4318807d5159906f8e1d", "2.3"],
        ["bb843a25cc58f37b2e6bfe1d75cd7373", "2.4"],
        ["c9b028e8e56cf2363badc3fe280906eb", "2.5"],
        ["511213b8a1e9862f238eccd8a1b9b1b6", "2.6"],
        ["8693f90eb469b6244b73eef97079aed7", "2.7.1"],
        ["18eac337c4439e181265f60340f14731", "2.7.2"],
        ["007c39966151322a90b8221820398e52", "2.7.3"],
        ["5a48f0574c3d62d26a08f3888732f792", "2.7.4"],
        ["2a669e47b6ecfa30b54a2aa2f1c50759", "2.7.5"],
        ["bb843a25cc58f37b2e6bfe1d75cd7373", "2.7.6"],
        ["bb843a25cc58f37b2e6bfe1d75cd7373", "2.8"],
        ["ff1136f19b74186291424cf7c817df52", "2.9"],
        ["7b36f4c1068af7b11e3a3c009808443f", "3.1"],
        ["ff1136f19b74186291424cf7c817df52", "3.2"],
    ],
)

#### Aufgabe 2.1
Die Namen der Regatten und Boote, die sie gewonnen haben.

In [None]:
con.sql(
    """
    
"""
)

#### Aufgabe 2.2
Die Bootsfarbe, die am h√§ufigsten vertreten ist und die SegelNr der Boote, die in dieser Farbe gestrichen oder lackiert sind.

In [None]:
con.sql(
    """
"""
)

#### Aufgabe 2.3*
Die Namen der Pokale, an denen keine Holzboote teilgenommen haben. Dabei soll jeder Name nur genau einmal vorkommen.

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 2.4*
Die Namen der Pokale, an denen ausschlie√ülich Holzboote teilgenommen haben.

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 2.5*
Finde alle Teilnehmer (SegelNr und Name), die an mindestens zwei verschiedenen Wettfahrten teilgenommen haben.

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 2.6*
Finde alle Teilnehmer (SegelNr und Eigner) welche keine Platzierung erlangt haben.

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 2.7: Vorbereitung Hausaufgabe 

Die folgende Anfrage √§hnelt von der Komplexit√§t der Anfrage dem, was Sie unter anderem in der Hausaufgabe erwarten k√∂nnen. L√∂sen Sie die Aufgabe, indem Sie zuvor schrittweise die einzelnen Teilaufgaben bzw. Teilanfragen l√∂sen. Nutzen Sie, wo m√∂glich, die zuvor eingef√ºhrten Common Table Expressions.

Hauptanfrage: Bestimmen Sie die Namen der Wettfahrten, bei denen alle Teilnehmer eine im Durchschnitt h√∂here Platzierung haben, als der Durchschnitt aller Boote bei allen Wettfahrten.

##### Aufgabe 2.7.1

Bestimmen Sie den Durchschnitt aller Platzierungen. Wenn ein Boot ein Rennen nicht abgeschlossen hat (dnf/NULL), dann soll dies in den Durchschnitt mit dem Wert 5 einflie√üen. Der Wert von dnf bzw. NULL gilt auch f√ºr die folgenden Teilaufgaben.

In [None]:
con.sql(
    """

"""
)

##### Aufgabe 2.7.2 

Bestimmen Sie die durchschnittliche Platzierung pro Boot (SegelNr). 

In [None]:
con.sql(
    """

"""
)

##### Aufgabe 2.7.3

Bestimmen Sie die Boote (SegelNr), welche im Durchschnitt besser Platzierungen erzielen, als der Durchschnitt aller Platzierungen. Nutzen Sie (Teil-)Anfragen von zuvor.

##### Aufgabe 2.7.4

Bestimmen Sie die Anzahl an Teilnehmern (SegelNr) pro Regatta.

In [None]:
con.sql(
    """

"""
)

##### Aufgabe 2.7.5

Bestimmen Sie die Anzahl der √ºberdurchschnittlich guten Teilnehmer (SegelNr) pro Regatta. Nutzen Sie Ihr Ergebnis aus Teilaufgabe 2.7.3.

In [None]:
con.sql(
    """

"""
)

##### Aufgabe 2.7.6

L√∂sen Sie nun die Hauptaufgabe. 

Bestimmen Sie die Namen der Wettfahrten, bei denen alle Teilnehmer eine im Durchschnitt h√∂here Platzierung haben, als der Durchschnitt aller Boote bei allen Wettfahrten.

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 2.8*
Die Namen der Wettfahrten, an denen die wenigsten Boote teilgenommen haben.

In [None]:
con.sql(
    """

"""
)

#### Aufgabe 2.9* 

In der Relationalen Algebra gibt es den `Divisions` Operator. Die Division erm√∂glicht es, Entit√§ten zu finden, die mit allen Entit√§ten einer anderen Relation interagieren. Da es die Division in SQL nicht direkt gibt, ist es nun Ihre Aufgabe, die Division durch existierende SQL-Operationen darzustellen.

(Link zur Division:  https://www.red-gate.com/simple-talk/databases/sql-server/t-sql-programming-sql-server/divided-we-stand-the-sql-of-relational-division/)
(Alternativ kann auch ein Ansatz, die Division darzustellen, verwendet werden, den man gut mit CTEs kombinieren kann: https://www.geeksforgeeks.org/sql-division/).

Die Wettfahrten, an denen Boote aller Bauarten teilgenommen haben. 

In [None]:
con.sql(
    """

"""
)

### Aufgabe 3

Formulieren Sie die folgenden Ausdr√ºcke der relationalen Algebra zu √§quivalenten SQL-DQL Anfragen.

#### Aufgabe 3.1

$\pi_{SegelNr, Wettfahrt, Platz, Name, Datum, Zeit}(\sigma_{Name="Herbstmeister"}
(Wettfahrt\bowtie_{FahrtNr=Wettfahrt}(\sigma_{Platz=1}Platzierung)))$

In [None]:
con.sql(
    """
"""
)

#### Aufgabe 3.2*

$\pi_{Name}(Wettfahrt \bowtie_{FahrtNr=Wettfahrt}(Platzierung \bowtie(\pi_{SegelNr}(\sigma_{Baujahr<1980}(Teilnehmer)))))$

In [None]:
con.sql(
    """

"""
)

In [None]:
con.close()

### Aufgabe 4*: SQL Injection

Wieso sind SQL Injections relevant? Fragen wir xkcd:

![](https://imgs.xkcd.com/comics/exploits_of_a_mom.png)

Zuerst √∂ffnen wir die die Uni Datenbank wieder. 

In [None]:
con = duckdb.connect(database="../resources/06_sql_dql/uni_ue.duckdb", read_only=False)

#### Aufgabe 4.1*

Gegeben sei die folgende Abfrage, um die Matrikelnummer eines:einer Studierenden mit mindestens 8 Semestern abzufragen.

Schreiben Sie einen Input, der mehr als einen Studierenden zur√ºckgibt. Diskutieren Sie danach wie dies verhindert werden kann. 

In [None]:
name = input("Gib einen Namen an: ")
query = (
    "SELECT s.name, s.matrnr FROM studenten s WHERE s.name LIKE '"
    + name
    + "' AND s.semester >= 8;"
)
print(query)

con.sql(query)

#### Aufgabe 4.2*

Schreiben Sie nun einen Input, der alle Studierenden zur√ºckgibt.

In [None]:
name = input("Gib einen Namen an: ")

query = (
    "SELECT s.name, s.matrnr FROM studenten s WHERE s.name LIKE '"
    + name
    + "' AND s.semester >= 8;"
)
print(query)

con.sql(query)

In [None]:
con.close()

### Probleme bei der Nutzung von LLMs 
Wir w√ºrden Sie gerne dazu motivieren, die Vorleistung ohne die Nutzung von LLM's zu l√∂sen, um den gr√∂√üt m√∂glichen Lerneffekt zu erzielen.
##### Bedenken Sie, dass Sie in der Klausur das Wissen ohne LLM's nachweisen m√ºssen !
Es gibt neben dem Lerneffekt jedoch auch zus√§tzliche Schwierigkeiten, die mit der Nutzung von LLM's einhergeht:

#### Ambiguit√§t in der Spezifikation
Beispiel: Generiere eine SQL-Query, die alle deutschen Filmregisseure ausgibt
Problem: Je nach Auffassung kann die korrekte Query eine andere sein: z.B. 
- deutsche Staatsb√ºrger die Regisseure sind
- Regisseure, die deutschsprachige Filme drehen
- Regisseure, die in Deutschland Filme produzieren
- etc.

Beispiel: Generiere eine SQL-Query, die die beste Marathon-L√§uferin ermittelt
Problem: gut/beste ist nicht eindeutig definiert. Gemeint sein k√∂nnte
- Marathon-L√§uferin mit geringster Bestzeit
- Marathon-L√§uferin mit geringster Durchschnittszeit
- mit h√∂chster Anzahl an Wettbewerben
- etc.


##### Bedenke:
Selbst wenn Ihnen, die Spezifikation bereits klar geworden ist, kann das LLM weiterhin mit der genauen Spezifikation verwirrt sein.

#### Schema Linking
Beispiel: Generiere eine SQL-Query, die alle deutschen Filme ausgibt
Problem: Wissen √ºber Abbildung der Daten ist n√∂tig, um korrekte Query zu schreiben.
In Spalte ‚ÄúNation‚Äù k√∂nnte Deutschland abgebildet sein als Germany, Deutschland, GER, DE, etc.