Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen der Seite angezeigt.

Link zu der Vergleichsansicht

Beide Seiten, vorherige Überarbeitung Vorherige Überarbeitung
Nächste Überarbeitung
Vorherige Überarbeitung
talit:indexing [2025-10-30 08:41] – [Aufgabe 3 - Stop Words] hoftalit:indexing [2025-11-11 06:22] (aktuell) – [Wortfrequenzen] hof
Zeile 141: Zeile 141:
 cutoff = 0.5 cutoff = 0.5
 freqs = [(word, len(docs) / n) for word, docs in movie_idx.items() if len(docs) / n > cutoff] freqs = [(word, len(docs) / n) for word, docs in movie_idx.items() if len(docs) / n > cutoff]
 +# Absteigend sortieren nach relativer Frequenz:
 import operator import operator
 freqs.sort(reverse=True, key=operator.itemgetter(1)) freqs.sort(reverse=True, key=operator.itemgetter(1))
Zeile 157: Zeile 158:
 </code> </code>
 ++++ ++++
-</nodisp +</nodisp> 
->+ 
 ## Ranking ## Ranking
 Beim Information Retrieval geht es nicht nur darum, welche Dokumente zur Query passen, sondern welche _am besten_ dazu passen. Ranking ist eine komplexe und manchmal undurchsichtige Wissenschaft, die von vielen gegenläufigen Interessen getrieben ist: Beispielsweise möchten ganz viele Webseitenbetreiber zuoberst in den Suchresultaten von Google landen - andererseits möchten die Benutzer die wirklich relevante Webseite zuoberst haben. Und Google möchte irgendwie Geld verdienen, indem es die obersten Plätze verkauft. Beim Information Retrieval geht es nicht nur darum, welche Dokumente zur Query passen, sondern welche _am besten_ dazu passen. Ranking ist eine komplexe und manchmal undurchsichtige Wissenschaft, die von vielen gegenläufigen Interessen getrieben ist: Beispielsweise möchten ganz viele Webseitenbetreiber zuoberst in den Suchresultaten von Google landen - andererseits möchten die Benutzer die wirklich relevante Webseite zuoberst haben. Und Google möchte irgendwie Geld verdienen, indem es die obersten Plätze verkauft.
Zeile 205: Zeile 207:
  
 Die Vereinigungsmenge hingegen liefert sehr viele Resultate für eine Query wie ''michael fox delorean''. Die Vereinigungsmenge hingegen liefert sehr viele Resultate für eine Query wie ''michael fox delorean''.
- 
 #### Wortfrequenzen #### Wortfrequenzen
-Zuerst werden die Inverse Document Frequencies in ein Dictionary überführt, das einfach auszulesen ist:+Zuerst werden die Document Frequencies in ein Dictionary überführt, das einfach auszulesen ist:
  
 <code python> <code python>
  • talit/indexing.1761813668.txt.gz
  • Zuletzt geändert: 2025-10-30 08:41
  • von hof