Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen der Seite angezeigt.
Beide Seiten, vorherige Überarbeitung Vorherige Überarbeitung Nächste Überarbeitung | Vorherige Überarbeitung | ||
talit:indexing [2024-09-02 14:26] – hof | talit:indexing [2025-02-15 13:38] (aktuell) – hof | ||
---|---|---|---|
Zeile 20: | Zeile 20: | ||
Anders als bei der Geodatenbank müssen wir hier noch den Text in einzelne Wörter (_en_. Tokens) zerlegen. | Anders als bei der Geodatenbank müssen wir hier noch den Text in einzelne Wörter (_en_. Tokens) zerlegen. | ||
- | |||
### Aufgabe 1 - Tokenizer | ### Aufgabe 1 - Tokenizer | ||
Zeile 46: | Zeile 45: | ||
<code python> | <code python> | ||
def query_index(index, | def query_index(index, | ||
- | result_set = set() | ||
return index.get(query, | return index.get(query, | ||
query_index(toy_index, | query_index(toy_index, | ||
</ | </ | ||
+ | |||
#### Fragen | #### Fragen | ||
- Findet dein System einen Film über `' | - Findet dein System einen Film über `' | ||
Zeile 162: | Zeile 161: | ||
Nehmen wir folgendes Beispiel: Wir indexieren alle Film-Artikel der 1980er Jahre und wollen möglichst gute Suchresultate für folgende Queries: | Nehmen wir folgendes Beispiel: Wir indexieren alle Film-Artikel der 1980er Jahre und wollen möglichst gute Suchresultate für folgende Queries: | ||
* '' | * '' | ||
+ | * '' | ||
+ | * '' | ||
Unsere Query-Funktion muss erstens mit mehreren Wörtern umgehen können - es bietet sich an, die `tokenize` Funktion auch hier anzuwenden und eine Suchanfrage für jedes Token in der Query durchzuführen. Die Frage ist allerdings, wie wir die einzelnen Resultatlisten kombinieren... | Unsere Query-Funktion muss erstens mit mehreren Wörtern umgehen können - es bietet sich an, die `tokenize` Funktion auch hier anzuwenden und eine Suchanfrage für jedes Token in der Query durchzuführen. Die Frage ist allerdings, wie wir die einzelnen Resultatlisten kombinieren... |