Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen der Seite angezeigt.

Link zu der Vergleichsansicht

Beide Seiten, vorherige Überarbeitung Vorherige Überarbeitung
Nächste Überarbeitung
Vorherige Überarbeitung
talit:retrieval [2025-03-03 20:53] hoftalit:retrieval [2025-11-03 18:21] (aktuell) hof
Zeile 1: Zeile 1:
 # Information Retrieval # Information Retrieval
  
-Beim _Information Retrieval_ geht es darum, aus einer potentiell riesigen Menge von Dokumenten (en. _corpus_) diejenigen herauszufinden, die einer Suchanfrage (en. _query_) am besten entsprechen. Die am besten bekannte Anwendung ist die Internet-Suche, die uns für eine Suchanfrage meist die richtige Seite aus Billionen von Webseiten herausfindet.+Beim _Information Retrieval_ geht es darum, aus einer potentiell riesigen Menge von Dokumenten (en. _corpus_) diejenigen herauszufinden, die einer Suchanfrage (en. _query_) am besten entsprechen. Die bekannteste Anwendung ist die Internet-Suche, die für eine Anfrage die richtige Seite aus Billionen von Webseiten herausfindet.
  
 Es bestehen die folgenden Kapitel: Es bestehen die folgenden Kapitel:
Zeile 7: Zeile 7:
   * [[indexing]]   * [[indexing]]
   * [[spatial]]   * [[spatial]]
 + 
  
 ## Build Your Own Google ## Build Your Own Google
 +
 +{{ .:retrieval:pasted:20251028-091132.png?nolink&400|}}
  
 <nodisp 0> <nodisp 0>
Zeile 22: Zeile 25:
  
 Um diese Aufgaben **schnell** zu lösen, ist es im allgemeinen nicht möglich, den ganzen Korpus für jede Anfrage zu durchsuchen. Stattdessen bauen wir einen **Index**, der es erlaubt, effizient die geforderten Dokumente zu finden. Um diese Aufgaben **schnell** zu lösen, ist es im allgemeinen nicht möglich, den ganzen Korpus für jede Anfrage zu durchsuchen. Stattdessen bauen wir einen **Index**, der es erlaubt, effizient die geforderten Dokumente zu finden.
 +
 +Im Unterschied zu einem _Dictionary_ hat in einem _Index_ nicht jedes Dokument einen eindeutigen Schlüssel, sondern für einen gegebenen Schlüssel können mehrere Dokumente erfasst sein, und ein Dokument kann für mehrere Schlüssel eingetragen sein.
 +
 +In der nebenstehenden Abbildung sind beispielsweise für viele Einträge _mehrere_ Seitenzahlen aufgeführt, und die Seitenzahl 222 wird mehrfach referenziert.
  
 ### Jupyter ### Jupyter
Zeile 91: Zeile 98:
 ++++ ++++
 </nodisp> </nodisp>
- 
 ### Aufgabe 2 - Ernsthafte Datasets ### Aufgabe 2 - Ernsthafte Datasets
  
Zeile 110: Zeile 116:
  
 ++++Hinweise:| ++++Hinweise:|
-  * https://docs.python.org/3/library/zipfile.html +  * Zip-Dateien entpacken mit [[https://docs.python.org/3/library/zipfile.html|zipfile.ZipFile]] 
-  * https://docs.python.org/3/library/io.html#io.TextIOWrapper+  * CSV-Dateien einlesen als Dictionaries mit [[https://docs.python.org/3/library/csv.html#csv.DictReader|csv.DictReader]] 
 +  * Binärdateien als Unicode-Text interpretieren mit [[https://docs.python.org/3/library/io.html#io.TextIOWrapper|io.TextIOWrapper]] 
 +    * z.B. mit `csv.DictReader(TextIOWrapper(csv_file, 'utf-8'), delimiter='\t', fieldnames=...)`
 ++++ ++++
  
  • talit/retrieval.1741035185.txt.gz
  • Zuletzt geändert: 2025-03-03 20:53
  • von hof