|
Dass eine Zuweisung spezieller Startwerte ohne
Auswirkungen bleibt, bedeutet jedoch nicht, dass Websites nicht
durch einen Eingriff in den PageRank-Algorithmus bevorzugt
werden können. So beschreibt Lawrence Page bereits in seiner Patentschrift
zum PageRank-Verfahren (United States Patent 6,285,999) die
Möglichkeit für die besondere Bewertung spezieller Webseiten. Der
Ausgangspunkt für seine Überlegungen ist, dass der Zufalls-Surfer
aus dem Random Surfer Modell zwar mit einer starr festgelegten Wahrscheinlichkeit
aufhört, Links zu verfolgen, dann aber im Gegensatz zum ursprünglichen
PageRank-Algorithmus nicht mehr mit der gleichen Wahrscheinlichkeit
eine Webseite für einen erneuten Start seines Surf-Vorgangs auswählt.
Es entspricht schließlich dem normalen Verhalten eines Internet-Nutzers,
dass er als Ausgangspunkt mit einer höheren Wahrscheinlichkeit etwa
eines der genannten Verzeichnisse Yahoo oder ODP wählt.
Damit die besondere Bewertung einzelner Webseiten
in dieser Form in den ursprünglichen PageRank Algorithmus
einfließen kann, muss er um einen weiteren Erwartungswert erweitert
werden. Die entsprechende Formel hat dann folgendes Aussehen:
PR(A) = E(A) (1-d) + d (PR(T1)/C(T1)
+ ... + PR(Tn)/C(Tn))
Hierbei ist (1-d) jetzt die Wahrscheinlichkeit,
mit der der Zufalls-Surfer das Weiterverfolgen von Links abbricht
und E(A) die nach der Anzahl der Webseiten gewichtete Wahrscheinlichkeit,
mit der der Zufalls-Surfer die Seite A danach aufruft. Bei E handelt
es sich dabei wiederum um einen Erwartungswert, dessen Durchschnitt
über alle Seiten gleich 1 ist, damit der Durchschnitt der PageRank-Werte
weiterhin gegen 1 konvergiert und nicht etwa durch die besondere
Bewertung spezieller Seiten schwankt und somit der PageRank
einen unregelmäßigen Einfluss auf die Gesamtbewertung von Seiten
einnimmt.
In
unserem Beispiel liege nach dem Abbruch des Surfvorgangs durch den
Zufalls-Surfer die Wahrscheinlichkeit für den Aufruf von Seite A
bei 10% und die Wahrscheinlichkeit für den Aufruf von Seite B bei
90%. Damit ist bei einem 2-Seiten-Web E(A)=0.2 und E(B)=1.8.
Für die Ermittlung der PageRank Werte der
beiden Seiten ergeben sich bei einem Dämpfungsfaktor d=0.5 hierdurch
die folgenden Gleichungen:
- PR(A) = 0.2 Χ 0.5 + 0.5 Χ PR(B)
- PR(B) = 1.8 Χ 0.5 + 0.5 Χ PR(A)
Die Lösung dieses Gleichungssystems ergibt die
folgenden PageRank-Werte:
- PR(A) = 11/15
- PR(B) = 19/15
Die Summe der beiden PageRank-Werte liegt
weiterhin bei 2. Die höhere Wahrscheinlichkeit für das Aufrufen
von Seite B nach dem Abbruch spiegelt sich in ihrem höheren PageRank-Wert
wider. Die gleichmäßige Verlinkung der beiden Seiten untereinander
vermindert jedoch ganz deutlich die Auswirkung der höheren Aufrufwahrscheinlichkeit
auf den PageRank.
Es ist also möglich, eine besondere Gewichtung
einzelner Seiten in den PageRank-Algorithmus einfließen zu
lassen, ohne dass dessen Charakter grundsätzlich verändert werden
müsste. Fraglich bleibt jedoch, nach welchen Kriterien die Gewichtung
erfolgen kann. In der Patentschrift zum PageRank-Verfahren
nennt Lawrence Page hierzu explizit die Nutzung tatsächlichen Benutzerverhaltens.
Daten zum tatsächlichen Nutzerverhalten werden von Google
über die Google Toolbar gesammelt. Das besondere hierbei ist,
dass nicht einmal allzu große Datenmengen verarbeitet werden müssten,
wie dies der Fall wäre, wenn eine Bewertung ausschließlich auf Nutzerverhalten
basieren würde. Eine begrenzte Stichprobe wäre durchaus ausreichend,
um zumindest die 1.000 oder 10.000 wichtigsten Anlaufstellen im
Web zu ermitteln. Der PageRank-Algorithmus wäre dann in der
Lage, über die Link-Struktur des Webs die Lücken zu füllen.
Die Ausführungen zum Einfließen tatsächlichen Benutzerverhaltens
in das PageRank-Verfahren sind natürlich pure Spekulation.
Ob überhaupt eine besondere Gewichtung spezieller Seiten stattfindet,
wird letztlich ein Geheimnis der Google-Verantwortlichen bleiben.
|