Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen der Seite angezeigt.

--- talit:retrieval [2025-03-03 20:53] – hof
+++ talit:retrieval [2025-11-03 18:21] (aktuell) – hof
@@ Zeile 1: / Zeile 1: @@
 # Information Retrieval
-Beim _Information Retrieval_ geht es darum, aus einer potentiell riesigen Menge von Dokumenten (en. _corpus_) diejenigen herauszufinden, die einer Suchanfrage (en. _query_) am besten entsprechen. Die am besten bekannte Anwendung ist die Internet-Suche, die uns für eine Suchanfrage meist die richtige Seite aus Billionen von Webseiten herausfindet.
+Beim _Information Retrieval_ geht es darum, aus einer potentiell riesigen Menge von Dokumenten (en. _corpus_) diejenigen herauszufinden, die einer Suchanfrage (en. _query_) am besten entsprechen. Die bekannteste Anwendung ist die Internet-Suche, die für eine Anfrage die richtige Seite aus Billionen von Webseiten herausfindet.
 Es bestehen die folgenden Kapitel:
@@ Zeile 7: / Zeile 7: @@
   * [[indexing]]
   * [[spatial]]
 ## Build Your Own Google
+{{ .:retrieval:pasted:20251028-091132.png?nolink&400|}}
 <nodisp 0>
@@ Zeile 22: / Zeile 25: @@
 Um diese Aufgaben **schnell** zu lösen, ist es im allgemeinen nicht möglich, den ganzen Korpus für jede Anfrage zu durchsuchen. Stattdessen bauen wir einen **Index**, der es erlaubt, effizient die geforderten Dokumente zu finden.
+Im Unterschied zu einem _Dictionary_ hat in einem _Index_ nicht jedes Dokument einen eindeutigen Schlüssel, sondern für einen gegebenen Schlüssel können mehrere Dokumente erfasst sein, und ein Dokument kann für mehrere Schlüssel eingetragen sein.
+In der nebenstehenden Abbildung sind beispielsweise für viele Einträge _mehrere_ Seitenzahlen aufgeführt, und die Seitenzahl 222 wird mehrfach referenziert.
 ### Jupyter
@@ Zeile 91: / Zeile 98: @@
 ++++
 </nodisp>
 ### Aufgabe 2 - Ernsthafte Datasets
@@ Zeile 110: / Zeile 116: @@
 ++++Hinweise:|
-  * https://docs.python.org/3/library/zipfile.html
+  * Zip-Dateien entpacken mit [[https://docs.python.org/3/library/zipfile.html|zipfile.ZipFile]]
-  * https://docs.python.org/3/library/io.html#io.TextIOWrapper
+  * CSV-Dateien einlesen als Dictionaries mit [[https://docs.python.org/3/library/csv.html#csv.DictReader|csv.DictReader]]
+  * Binärdateien als Unicode-Text interpretieren mit [[https://docs.python.org/3/library/io.html#io.TextIOWrapper|io.TextIOWrapper]]
+    * z.B. mit `csv.DictReader(TextIOWrapper(csv_file, 'utf-8'), delimiter='\t', fieldnames=...)`
 ++++