Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen der Seite angezeigt.
Beide Seiten, vorherige Überarbeitung Vorherige Überarbeitung Nächste Überarbeitung | Vorherige Überarbeitung | ||
talit:retrieval [2024-08-12 14:27] – hof | talit:retrieval [2025-03-03 20:53] (aktuell) – hof | ||
---|---|---|---|
Zeile 10: | Zeile 10: | ||
## Build Your Own Google | ## Build Your Own Google | ||
- | < | + | < |
++++Repo| | ++++Repo| | ||
https:// | https:// | ||
Zeile 46: | Zeile 46: | ||
} | } | ||
</ | </ | ||
+ | |||
+ | Der Corpus ist ein Dictionary, dessen Keys gerade die Dokumenten-Ids sind; jedes Dokument ist wiederum ein kleines Dictionary, wobei jedes dieselben Keys (`name`...) aufweist. | ||
+ | |||
### Aufgabe 1 - Lineare Suche | ### Aufgabe 1 - Lineare Suche | ||
Zeile 72: | Zeile 75: | ||
Mit dem `tqdm`-Modul lässt sich der Fortschritt bequem darstellen. Das Modul muss einmalig z.B. mit `%pip install tqdm` installiert werden. | Mit dem `tqdm`-Modul lässt sich der Fortschritt bequem darstellen. Das Modul muss einmalig z.B. mit `%pip install tqdm` installiert werden. | ||
- | < | + | < |
++++Lösung| | ++++Lösung| | ||
<code python> | <code python> | ||
Zeile 111: | Zeile 114: | ||
++++ | ++++ | ||
- | < | + | < |
++++Lösung| | ++++Lösung| | ||
Zuerst muss die Datei in `data/ | Zuerst muss die Datei in `data/ | ||
Zeile 120: | Zeile 123: | ||
import zipfile | import zipfile | ||
import csv | import csv | ||
+ | from tqdm.auto import tqdm | ||
+ | | ||
+ | # Fieldnames from https:// | ||
+ | fields = [' | ||
| | ||
result = {} | result = {} | ||
with zipfile.ZipFile(f' | with zipfile.ZipFile(f' | ||
with myzip.open(f' | with myzip.open(f' | ||
- | reader = csv.DictReader(TextIOWrapper(csv_file, | + | reader = csv.DictReader(TextIOWrapper(csv_file, |
for data in tqdm(reader, | for data in tqdm(reader, | ||
result[int(data[' | result[int(data[' | ||
Zeile 178: | Zeile 185: | ||
Probiert zuerst mit dem Toy-Dataset, | Probiert zuerst mit dem Toy-Dataset, | ||
- | < | + | < |
++++Lösung| | ++++Lösung| | ||