Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen der Seite angezeigt.
| Beide Seiten, vorherige Überarbeitung Vorherige Überarbeitung Nächste Überarbeitung | Vorherige Überarbeitung | ||
| talit:retrieval [2025-10-28 09:12] – [Build Your Own Google] hof | talit:retrieval [2025-11-03 18:21] (aktuell) – hof | ||
|---|---|---|---|
| Zeile 1: | Zeile 1: | ||
| # Information Retrieval | # Information Retrieval | ||
| - | Beim _Information Retrieval_ geht es darum, aus einer potentiell riesigen Menge von Dokumenten (en. _corpus_) diejenigen herauszufinden, | + | Beim _Information Retrieval_ geht es darum, aus einer potentiell riesigen Menge von Dokumenten (en. _corpus_) diejenigen herauszufinden, |
| Es bestehen die folgenden Kapitel: | Es bestehen die folgenden Kapitel: | ||
| Zeile 7: | Zeile 7: | ||
| * [[indexing]] | * [[indexing]] | ||
| * [[spatial]] | * [[spatial]] | ||
| + | |||
| + | |||
| ## Build Your Own Google | ## Build Your Own Google | ||
| {{ .: | {{ .: | ||
| - | < | + | < |
| ++++Repo| | ++++Repo| | ||
| https:// | https:// | ||
| Zeile 24: | Zeile 26: | ||
| Um diese Aufgaben **schnell** zu lösen, ist es im allgemeinen nicht möglich, den ganzen Korpus für jede Anfrage zu durchsuchen. Stattdessen bauen wir einen **Index**, der es erlaubt, effizient die geforderten Dokumente zu finden. | Um diese Aufgaben **schnell** zu lösen, ist es im allgemeinen nicht möglich, den ganzen Korpus für jede Anfrage zu durchsuchen. Stattdessen bauen wir einen **Index**, der es erlaubt, effizient die geforderten Dokumente zu finden. | ||
| - | Im Unterschied zu einem _Dictionary_ hat in einem _Index_ nicht jedes Dokument einen eindeutigen Schlüssel, sondern für einen gegebenen Schlüssel können mehrere Dokumente erfasst sein. | + | Im Unterschied zu einem _Dictionary_ hat in einem _Index_ nicht jedes Dokument einen eindeutigen Schlüssel, sondern für einen gegebenen Schlüssel können mehrere Dokumente erfasst |
| + | |||
| + | In der nebenstehenden Abbildung sind beispielsweise für viele Einträge _mehrere_ Seitenzahlen aufgeführt, | ||
| ### Jupyter | ### Jupyter | ||
| Zeile 78: | Zeile 82: | ||
| Mit dem `tqdm`-Modul lässt sich der Fortschritt bequem darstellen. Das Modul muss einmalig z.B. mit `%pip install tqdm` installiert werden. | Mit dem `tqdm`-Modul lässt sich der Fortschritt bequem darstellen. Das Modul muss einmalig z.B. mit `%pip install tqdm` installiert werden. | ||
| - | < | + | < |
| ++++Lösung| | ++++Lösung| | ||
| <code python> | <code python> | ||
| Zeile 118: | Zeile 122: | ||
| ++++ | ++++ | ||
| - | < | + | < |
| ++++Lösung| | ++++Lösung| | ||
| Zuerst muss die Datei in `data/ | Zuerst muss die Datei in `data/ | ||
| Zeile 189: | Zeile 193: | ||
| Probiert zuerst mit dem Toy-Dataset, | Probiert zuerst mit dem Toy-Dataset, | ||
| - | < | + | < |
| ++++Lösung| | ++++Lösung| | ||