Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen der Seite angezeigt.
Beide Seiten, vorherige Überarbeitung Vorherige Überarbeitung Nächste Überarbeitung | Vorherige Überarbeitung | ||
gf_informatik:daten:processing:dictionaries_tutorial [2023-05-29 12:27] – hof | gf_informatik:daten:processing:dictionaries_tutorial [2024-06-10 10:53] (aktuell) – hof | ||
---|---|---|---|
Zeile 13: | Zeile 13: | ||
Eine einfache Möglichkeit, | Eine einfache Möglichkeit, | ||
- | Wenn wir möchten, dass unsere | + | Wenn wir möchten, dass unsere |
* Lookup: '' | * Lookup: '' | ||
Zeile 23: | Zeile 23: | ||
<code python> | <code python> | ||
- | class TupelList: | + | class TupleList: |
""" | """ | ||
def __init__(self): | def __init__(self): | ||
Zeile 48: | Zeile 48: | ||
# add new mapping | # add new mapping | ||
self._tuples.append((key, | self._tuples.append((key, | ||
+ | |||
+ | def __len__(self): | ||
+ | return len(self._tuples) | ||
def __iter__(self): | def __iter__(self): | ||
Zeile 53: | Zeile 56: | ||
yield k | yield k | ||
| | ||
- | map = TupelList() # calls __init__ | + | map = TupleList() # calls __init__ |
map[' | map[' | ||
map[' | map[' | ||
Zeile 85: | Zeile 88: | ||
print(f" | print(f" | ||
- | perf_test(TupelList) | + | perf_test(TupleList) |
</ | </ | ||
Output: | Output: | ||
< | < | ||
- | TupelList: N= | + | TupleList: N= |
- | TupelList: N= 1000 Time per Op: 2.9e-05 | + | TupleList: N= 1000 Time per Op: 2.9e-05 |
- | TupelList: N= 10000 Time per Op: 2.5e-04 | + | TupleList: N= 10000 Time per Op: 2.5e-04 |
</ | </ | ||
- | Die Zeit, um eine einzelne Zuordnung abzurufen wächst also linear mit der Anzahl Zuordnungen - wir sagen auch, dass die Lookup-Operation eine Laufzeit-Komplexität von $\mathcal{O}(n)$ hat. | + | Die Zeit, um eine einzelne Zuordnung abzurufen wächst also linear mit der Anzahl Zuordnungen - wir sagen auch, dass die Lookup-Operation eine Laufzeit-Komplexität von $O(n)$ hat. |
#### Aufgabe 1 - Zeitmessung | #### Aufgabe 1 - Zeitmessung | ||
Zeile 105: | Zeile 108: | ||
Falls die verwendeten Schlüssel miteinander vergleichbar sind, könnten wir die Tupel-Liste ja sortieren, der Zugriff sollte dementsprechend schneller sein. Mathematiker sprechen auch davon, dass eine [[wpde> | Falls die verwendeten Schlüssel miteinander vergleichbar sind, könnten wir die Tupel-Liste ja sortieren, der Zugriff sollte dementsprechend schneller sein. Mathematiker sprechen auch davon, dass eine [[wpde> | ||
+ | |||
#### Aufgabe 2 - Sortierte Tupel-Liste | #### Aufgabe 2 - Sortierte Tupel-Liste | ||
- | Implementiere eine `class | + | Implementiere eine `class |
- | * Wir können von `TupelList` erben: `class | + | * Wir können von `TupleList` erben: `class |
* Die private Methode `_finditem(key)` muss angepasst werden um die Binärsuche zu implementieren. | * Die private Methode `_finditem(key)` muss angepasst werden um die Binärsuche zu implementieren. | ||
* In `__getitem__` und `__delitem__` bleiben sich gleich und müssen nicht angepasst werden. | * In `__getitem__` und `__delitem__` bleiben sich gleich und müssen nicht angepasst werden. | ||
Zeile 117: | Zeile 121: | ||
++++Lösung: | ++++Lösung: | ||
<code python> | <code python> | ||
- | class SortedTupelList(TupelList): | + | class SortedTupleList(TupleList): |
""" | """ | ||
# Override _finditem to use binary search | # Override _finditem to use binary search | ||
Zeile 150: | Zeile 154: | ||
++++ | ++++ | ||
</ | </ | ||
- | |||
### Variante 3 - Hash-Map | ### Variante 3 - Hash-Map | ||
Können wir noch schneller sein als Binärsuche? | Können wir noch schneller sein als Binärsuche? | ||
- | Binärsuche ist sehr viel schneller als lineare Suche: jedes Mal wenn wir die Anzahl Einträge | + | Binärsuche ist sehr viel schneller als lineare Suche: jedes Mal, wenn wir die Anzahl Einträge |
- | Allerdings wissen wir auch, dass der eigentliche Zugriff auf die zugrundeliegende Liste nicht von deren Grösse abhängt. Wenn wir den richtigen Index kennen würden, könnten wir den Zugriff in konstanter Zeit (oder $\mathcal{O}(1)$) schaffen. Dies wird mit einer Hashmap erreicht, indem der Index aus dem Key berechnet wird. Dazu wird für jedes Key-Objekt ein _Hashwert_ (eine Ganzzahl) berechnet. Aus dem Hashwert wird der Index in der Tupel-Liste mittels `hash % len(self.tuples)` berechnet. | + | #### Hashing |
+ | |||
+ | Allerdings wissen wir auch, dass der eigentliche Zugriff auf die zugrundeliegende Liste nicht von deren Grösse abhängt. Wenn wir den richtigen Index kennen würden, könnten wir den Zugriff in konstanter Zeit (oder $O(1)$) schaffen. Dies wird mit einer Hashmap erreicht, indem der Index aus dem Key berechnet wird. Dazu wird für jedes Key-Objekt ein _Hashwert_ (eine Ganzzahl) berechnet. Aus dem Hashwert wird der Index in der Tupel-Liste mittels `hash % len(self.tuples)` berechnet. | ||
In Python können wir die eingebaute `hash(object)` Funktion verwenden, um für jedes Objekt einen Hashwert zu erhalten. Für die meisten Objekte ist dies ein Wert, der aus der internen Speicheradresse abgeleitet wird; für Typen, die `__eq__` implementieren, | In Python können wir die eingebaute `hash(object)` Funktion verwenden, um für jedes Objekt einen Hashwert zu erhalten. Für die meisten Objekte ist dies ein Wert, der aus der internen Speicheradresse abgeleitet wird; für Typen, die `__eq__` implementieren, | ||
+ | |||
+ | #### Kollisionen | ||
Natürlich kann es vorkommen, dass zwei unterschiedliche Keys denselben Index ergeben, eine sogenannte Kollision. Wir müssen also beim Suchen sicherstellen, | Natürlich kann es vorkommen, dass zwei unterschiedliche Keys denselben Index ergeben, eine sogenannte Kollision. Wir müssen also beim Suchen sicherstellen, | ||
- | * Probing: In der Liste weiterzusuchen | + | * Probing: In der Liste weitersuchen |
- | * ... aber dann müssen wir bei `Remove` sicherstellen, | + | * Dies führt zu _Clustering_: |
- | * Chaining: Jedes Listenelement ist eine weitere Liste, die wir linear | + | * Bei `Remove` |
- | * es bietet sich an, gleich eine `TupelList` von oben zu verwenden... | + | * Chaining: Jedes Listenelement ist eine weitere Liste, die wir nach dem richtigen Key durchsuchen. |
+ | * Solange die Kollisionsrate tief ist, kostet die lineare Suche kaum Zeit. | ||
+ | * Es bietet sich an, gleich eine `TupleList` von oben zu verwenden | ||
Um die Anzahl Kollisionen tief zu halten ist es wichtig, dass die Liste nie ganz gefüllt ist - die Tupel-Liste wird also bewusst grösser gewählt als nötig und bei Bedarf ein _rehash_ ausgeführt: | Um die Anzahl Kollisionen tief zu halten ist es wichtig, dass die Liste nie ganz gefüllt ist - die Tupel-Liste wird also bewusst grösser gewählt als nötig und bei Bedarf ein _rehash_ ausgeführt: | ||
Zeile 175: | Zeile 184: | ||
Hinweise: | Hinweise: | ||
- | * wir können `_tuples` und `__getitem__` wieder von `TupelList` erben. | + | * wir können `_tuples` und `__getitem__` wieder von `TupleList` erben. |
<nodisp 1> | <nodisp 1> | ||
++++Mit linear Probing:| | ++++Mit linear Probing:| | ||
<code python> | <code python> | ||
- | class HashMap(TupelList): | + | class HashMap(TupleList): |
def __init__(self): | def __init__(self): | ||
self._tuples = [None] * 10 # The entries (None where empty) | self._tuples = [None] * 10 # The entries (None where empty) | ||
Zeile 186: | Zeile 195: | ||
def __len__(self): | def __len__(self): | ||
- | return | + | return |
| | ||
def __iter__(self): | def __iter__(self): | ||
Zeile 264: | Zeile 273: | ||
<code python> | <code python> | ||
class ChainingHashMap: | class ChainingHashMap: | ||
- | """ | + | """ |
def __init__(self): | def __init__(self): | ||
self._tuples = [None] * 10 # The entries, either None or a linear TupleList. | self._tuples = [None] * 10 # The entries, either None or a linear TupleList. | ||
Zeile 270: | Zeile 279: | ||
def __len__(self): | def __len__(self): | ||
- | return | + | return |
def __iter__(self): | def __iter__(self): | ||
Zeile 281: | Zeile 290: | ||
| | ||
def _finditem(self, | def _finditem(self, | ||
- | """ | + | """ |
- | If raise_on_notfound is False, an empty TupelList | + | If raise_on_notfound is False, an empty TupleList |
h = self._hash(key) % len(self._tuples) | h = self._hash(key) % len(self._tuples) | ||
Zeile 291: | Zeile 300: | ||
raise KeyError(key) | raise KeyError(key) | ||
# create a new sublist | # create a new sublist | ||
- | entry = TupelList() | + | entry = TupleList() |
self._tuples[h] = entry | self._tuples[h] = entry | ||
return entry | return entry |