|
Fortschrittliche Suchmaschinen verwandeln Wörter
in Zahlen, da der Vergleich von Zahlen auf einem Computer wesentlich
schneller erfolgt als der Vergleich von Wörtern. Beim Ranking
der Suchmaschinen werden so aus Wortaneinanderreihungen Zahlenketten,
bei denen die Wortnummer und die Position jedes Wortes in einer
Seite festgehalten wird.
Dies beschleunigt einmal die Phrasensuche, und
erlaubt gleichzeitig die Wiedererstellung der ursprünglichen
Texte aus massiven Datenbanken, ohne dass jede Seite zu diesem Zweck
als HTML-Datei gespeichert werden muss.
Gleichzeitig erlaubt die Benutzung von Document
Vectoren mehrere Analysen und Inhaltsvergleiche - überwiegend
zur Spam-Bekämpfung, die normalerweise nur bei begrenzten Datenbeständen
möglich sind.
Numerische Datenbestände werden besonders
komprimiert, wenn vor der Erstellung des Document Vectors alle in
einer Seite enthaltenen Worte durch Stemming auf den Wortstamm reduziert
werden.
|