Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen der Seite angezeigt.

Link zu der Vergleichsansicht

Beide Seiten, vorherige Überarbeitung Vorherige Überarbeitung
Nächste Überarbeitung
Vorherige Überarbeitung
talit:indexing [2025-10-30 08:41] – [Aufgabe 3 - Stop Words] hoftalit:indexing [2025-11-11 06:22] (aktuell) – [Wortfrequenzen] hof
Zeile 141: Zeile 141:
 cutoff = 0.5 cutoff = 0.5
 freqs = [(word, len(docs) / n) for word, docs in movie_idx.items() if len(docs) / n > cutoff] freqs = [(word, len(docs) / n) for word, docs in movie_idx.items() if len(docs) / n > cutoff]
 +# Absteigend sortieren nach relativer Frequenz:
 import operator import operator
 freqs.sort(reverse=True, key=operator.itemgetter(1)) freqs.sort(reverse=True, key=operator.itemgetter(1))
Zeile 206: Zeile 207:
  
 Die Vereinigungsmenge hingegen liefert sehr viele Resultate für eine Query wie ''michael fox delorean''. Die Vereinigungsmenge hingegen liefert sehr viele Resultate für eine Query wie ''michael fox delorean''.
- 
 #### Wortfrequenzen #### Wortfrequenzen
-Zuerst werden die Inverse Document Frequencies in ein Dictionary überführt, das einfach auszulesen ist:+Zuerst werden die Document Frequencies in ein Dictionary überführt, das einfach auszulesen ist:
  
 <code python> <code python>
  • talit/indexing.1761813682.txt.gz
  • Zuletzt geändert: 2025-10-30 08:41
  • von hof