Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen der Seite angezeigt.
| Beide Seiten, vorherige Überarbeitung Vorherige Überarbeitung Nächste Überarbeitung | Vorherige Überarbeitung | ||
| talit:indexing [2025-10-30 08:41] – [Aufgabe 3 - Stop Words] hof | talit:indexing [2025-11-11 06:22] (aktuell) – [Wortfrequenzen] hof | ||
|---|---|---|---|
| Zeile 141: | Zeile 141: | ||
| cutoff = 0.5 | cutoff = 0.5 | ||
| freqs = [(word, len(docs) / n) for word, docs in movie_idx.items() if len(docs) / n > cutoff] | freqs = [(word, len(docs) / n) for word, docs in movie_idx.items() if len(docs) / n > cutoff] | ||
| + | # Absteigend sortieren nach relativer Frequenz: | ||
| import operator | import operator | ||
| freqs.sort(reverse=True, | freqs.sort(reverse=True, | ||
| Zeile 157: | Zeile 158: | ||
| </ | </ | ||
| ++++ | ++++ | ||
| - | </nodisp | + | </ |
| - | > | + | |
| ## Ranking | ## Ranking | ||
| Beim Information Retrieval geht es nicht nur darum, welche Dokumente zur Query passen, sondern welche _am besten_ dazu passen. Ranking ist eine komplexe und manchmal undurchsichtige Wissenschaft, | Beim Information Retrieval geht es nicht nur darum, welche Dokumente zur Query passen, sondern welche _am besten_ dazu passen. Ranking ist eine komplexe und manchmal undurchsichtige Wissenschaft, | ||
| Zeile 205: | Zeile 207: | ||
| Die Vereinigungsmenge hingegen liefert sehr viele Resultate für eine Query wie '' | Die Vereinigungsmenge hingegen liefert sehr viele Resultate für eine Query wie '' | ||
| - | |||
| #### Wortfrequenzen | #### Wortfrequenzen | ||
| - | Zuerst werden die Inverse | + | Zuerst werden die Document Frequencies in ein Dictionary überführt, |
| <code python> | <code python> | ||