Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen der Seite angezeigt.

--- talit:retrieval [2024-08-13 05:10] – hof
+++ talit:retrieval [2025-11-03 18:21] (aktuell) – hof
@@ Zeile 1: / Zeile 1: @@
 # Information Retrieval
-Beim _Information Retrieval_ geht es darum, aus einer potentiell riesigen Menge von Dokumenten (en. _corpus_) diejenigen herauszufinden, die einer Suchanfrage (en. _query_) am besten entsprechen. Die am besten bekannte Anwendung ist die Internet-Suche, die uns für eine Suchanfrage meist die richtige Seite aus Billionen von Webseiten herausfindet.
+Beim _Information Retrieval_ geht es darum, aus einer potentiell riesigen Menge von Dokumenten (en. _corpus_) diejenigen herauszufinden, die einer Suchanfrage (en. _query_) am besten entsprechen. Die bekannteste Anwendung ist die Internet-Suche, die für eine Anfrage die richtige Seite aus Billionen von Webseiten herausfindet.
 Es bestehen die folgenden Kapitel:
@@ Zeile 7: / Zeile 7: @@
   * [[indexing]]
   * [[spatial]]
 ## Build Your Own Google
-<nodisp 2>
+{{ .:retrieval:pasted:20251028-091132.png?nolink&400|}}
+<nodisp 0>
 ++++Repo|
 https://github.com/tkilla77/ksr_talit_indexing
@@ Zeile 22: / Zeile 25: @@
 Um diese Aufgaben **schnell** zu lösen, ist es im allgemeinen nicht möglich, den ganzen Korpus für jede Anfrage zu durchsuchen. Stattdessen bauen wir einen **Index**, der es erlaubt, effizient die geforderten Dokumente zu finden.
+Im Unterschied zu einem _Dictionary_ hat in einem _Index_ nicht jedes Dokument einen eindeutigen Schlüssel, sondern für einen gegebenen Schlüssel können mehrere Dokumente erfasst sein, und ein Dokument kann für mehrere Schlüssel eingetragen sein.
+In der nebenstehenden Abbildung sind beispielsweise für viele Einträge _mehrere_ Seitenzahlen aufgeführt, und die Seitenzahl 222 wird mehrfach referenziert.
 ### Jupyter
@@ Zeile 46: / Zeile 53: @@
 }
 </code>
+Der Corpus ist ein Dictionary, dessen Keys gerade die Dokumenten-Ids sind; jedes Dokument ist wiederum ein kleines Dictionary, wobei jedes dieselben Keys (`name`...) aufweist.
 ### Aufgabe 1 - Lineare Suche
@@ Zeile 72: / Zeile 82: @@
 Mit dem `tqdm`-Modul lässt sich der Fortschritt bequem darstellen. Das Modul muss einmalig z.B. mit `%pip install tqdm` installiert werden.
-<nodisp 1>
+<nodisp 0>
 ++++Lösung|
 <code python>
@@ Zeile 88: / Zeile 98: @@
 ++++
 </nodisp>
 ### Aufgabe 2 - Ernsthafte Datasets
@@ Zeile 107: / Zeile 116: @@
 ++++Hinweise:|
-  * https://docs.python.org/3/library/zipfile.html
+  * Zip-Dateien entpacken mit [[https://docs.python.org/3/library/zipfile.html|zipfile.ZipFile]]
-  * https://docs.python.org/3/library/io.html#io.TextIOWrapper
+  * CSV-Dateien einlesen als Dictionaries mit [[https://docs.python.org/3/library/csv.html#csv.DictReader|csv.DictReader]]
+  * Binärdateien als Unicode-Text interpretieren mit [[https://docs.python.org/3/library/io.html#io.TextIOWrapper|io.TextIOWrapper]]
+    * z.B. mit `csv.DictReader(TextIOWrapper(csv_file, 'utf-8'), delimiter='\t', fieldnames=...)`
 ++++
-<nodisp 1>
+<nodisp 0>
 ++++Lösung|
 Zuerst muss die Datei in `data/cities500.zip` bzw. `data/allCountries.zip` gespeichert werden.
@@ Zeile 182: / Zeile 193: @@
 Probiert zuerst mit dem Toy-Dataset, bevor ihr euch an die grossen Datasets wagt!
-<nodisp 2>
+<nodisp 0>
 ++++Lösung|