Von Spam-Signalen und Ranking-Faktoren
geschrieben am 08.02.2010 von StefanKaum ein Artikel über aktuelle Google-Rankingverfahren oder -Filter kommt inzwischen ohne das Wörtchen “Signal” aus. Wo noch vor wenigen Jahren von Rankingfaktor oder Rankingkriterium die Rede war, geht’s heute stets um Signale. Google selbst benutzt den Ausdruck ebenfalls regelmäßig:
PageRank (..) is just one of over 200 signals that can affect how your site is crawled, indexed and ranked

Was aber ist mit Signal gemeint? Google wendet sich damit gegen das verbreitete Schwarz-Weiß-Denken: Eine Seite hat viele Footer-Links, also ist sie Spam. Eine Seite hat sehr hohen Trust, also kann sie kein Spam sein. Vielmehr geht es darum, eine Vielzahl von Hinweisen oder Merkmalen – Signale eben – auszuwerten und fürs Ranking zu benutzen. In gewisser Weise sind Signale nichts anderes als “weiche” Rankingfaktoren: Sie können einen Einfluss haben, müssen aber nicht. Erst wenn mehrere Signale zusammenwirken, hat das Einfluss auf die Position der bewerteten Seite. Insbesondere wenn’s um die Spamerkennung geht, sind Signale für Google wichtig. Ein böser Link alleine führt kaum zu einer Abwertung. Erst wenn Google sieht, dass viele böse Links vorhanden sind, aber wenige gute, kann das Auswirkungen haben.
Dabei ist der Umgang mit Signalen nichts, was Google erfunden hätte. Das grundlegende Vorgehen wird seit Jahren in E-Mail-Spamfiltern angewendet. In einer ansonsten tadellosen E-Mail wird das einmalige Vorkommen von “viagra” nicht zur Bewertung als Spam führen. Kommen aber zum Signal “viagra” noch weitere Signale (eine zweifelhafte Absender-IP, weitere böse Wörter usw.) hinzu, wird der Spamfilter die E-Mail irgendwann als Spam deklarieren.
Übertragen wir doch dieses Vorgehen einmal auf die Spamerkennung von Suchmaschinen. Wo E-Mail-Filter mit bösen Wörtern hantieren, muss sich der Google-Algorithmus mit Spamsignalen herumschlagen. Dazu könnten Signale gehören wie “Zu viele böse Backlinks”, “Zu hohe Keyword-Dichte” oder “Zu viele externe Footer-Links”. Wir nennen diese drei Kriterien k1, k2 und k3. Alle Kriterien gemeinsam bezeichnen wir als K. (In Wirklichkeit gibt es natürlich viel mehr als nur drei solcher Signale, ich möchte das ganze hier aber relativ einfach halten.)
Nun haben die Google-Anti-Spam-Mitarbeiter fleißig hunderttausende von bösen und guten Seiten untersucht, entsprechend eingeteilt und dabei folgende Wahrscheinlichkeiten festgestellt:
Die Tabelle sagt aus, dass lediglich auf 10 Prozent der guten Seiten (“Ham”) zu viele böse Backlinks gefunden wurden, aber auf 80 Prozent der bösen Seiten (“Spam”). Entsprechendes gilt für die anderen beiden Kriterien. So sehen wir auf einen Blick, dass das Kriterium “Böse Backlinks” ein gutes Signal für eine Spamseite ist. Würde Google nun aber eine Regel aufstellen, die sagt: “Wer zu viele böse Backlinks hat, ist Spam!”, dann würden zehn Prozent aller guten Seiten fälschlicherweise als Spam deklariert. Eine derart hohe Fehlerrate dürfte Google sicherlich zu hoch sein. Würde Google aber umgekehrt verlangen, dass alle drei Kriterien erfüllt sein müssen, kämen zu viele böse Seiten in den Index.
Falsche Wahrscheinlichkeiten
Unser Problem liegt nun darin, dass wir die “falschen” Wahrscheinlichkeiten haben. Die obige Tabelle zeigt uns, dass 80% der Spamseiten zu viele böse Backlinks haben. Etwas mathematischer ausgedrückt heißt das:
Das liest sich in etwa so: Die Wahrscheinlichkeit, dass das Kriterium k1 unter der Voraussetzung “Spam” erfüllt ist, liegt bei 0.8.
Uns interessiert aber genau die “umgekehrte” Wahrscheinlichkeit! Also die Wahrscheinlichkeit, dass eine Seite unter der Voraussetzung K “Spam” ist:
Für diese Umkehrung gibt es (unter bestimmten Voraussetzungen) eine bereits seit dem 18. Jahrhundert bekannte Formel, der berühmte Satz von Bayes, der dem Bayes-Filter seinen Namen verlieh.
Was sind nun aber die beiden Wahrscheinlichkeiten P(Spam) und P(K)? P(Spam) gibt an, wie wahrscheinlich es ist, dass eine Seite “Spam” ist – das entspricht also einfach dem Anteil der Spamseiten an allen Seiten im Google-Index. Wir nehmen an, ähnlich wie im klassischen E-Mail-Spamfilter, dass sich gute und böse Seiten die Waage halten, die Spamwahrscheinlichkeit also bei 50 Prozent liegt:
P(K) hingegen ergibt sich aus der Signal-Tabelle. Da entsprechend unserer Annahme “Ham”- und “Spam”-Seiten gleichverteilt sind, erhalten wir:
Setzen wir nun die Daten ein, ergibt sich diese kleine Rechnung:
Das Ergebnis überrascht uns noch nicht wirklich. Eine Seite, die zu viele böse Backlinks hat, ist mit einer Wahrscheinlichkeit von 89 Prozent eine Spamseite. Da die obige Tabelle sagt, dass zehn Prozent der guten Seiten böse Backlinks haben, sollten wir eine Spamwahrscheinlichkeit von etwa 90 Prozent erwartet haben. Spannender wird die Rechnerei aber, wenn wir diese Formel auf mehrere Kriterien verallgemeinern. Dazu müssen wir annehmen, dass die einzelnen Kriterien voneinander unabhängig sind. Ist dies der Fall, dürfen wir die Einzelwahrscheinlichkeiten einfach multiplizieren:
(Diese “naive” Annahme, dass die einzelnen Kriterien unabhängig sind, verleiht dem hier vorgestellten Bayes-Filter seinen korrekten Namen “Naiver Bayes-Filter”. Naiv ist die Annahme deshalb, weil ein Spammer, der zu viele böse Backlinks setzt, wohl auch eine zu hohe Keyword-Dichte einsetzt und schon sind beide Kriterien nicht mehr statistisch voneinander unabhängig.)
Nach einiger Rechnerei, die z.B. hier genauer aufgeführt ist, erhalten wir diese Formel, in die wir einfach unsere Daten aus der Signaltabelle einsetzen können:
Als erstes rechnen wir mit dieser Formel nochmals zur Kontrolle unsere Spamwahrscheinlichkeit für eine Seite aus, auf der lediglich das Kriterium k1 (“Zu viele böse Backlinks”) erfüllt ist:
Nun betrachten wir die Wahrscheinlichkeit, wenn die ersten beide Kriterien (“Backlinks”, “Keyword-Dichte”) erfüllt sind:
Die Spamwahrscheinlichkeit steigt deutlich an; sicher sind wir nun in einem Bereich, in dem Google auf das Spamming reagieren wird.
Was aber passiert, wenn unsere Seite auch noch Kriterium 3 (“Footer-Links”) erfüllt?
Hier ändert sich nicht mehr viel. Das hat natürlich damit zu tun, dass das dritte Kriterium zwar auf 90% der Spamseiten zu finden ist, aber auch auf sehr vielen (60%) der guten Seiten – und damit ist dieses Kriterium wenig unterscheidungskräftig.
Deutlicher wird das Ganze, wenn wir uns ansehen, was bei den beiden Kriterien zwei und drei passiert:
Hier erhalten wir eine Spamwahrscheinlichkeit von lediglich 82 Prozent.
Fazit
Aber sollten 82 Prozent nicht gut genug sein, eine Seite abzustrafen? Im Einzelfall mag das womöglich plausibel erscheinen. Aber stellen wir uns mal eine Million Seiten vor, auf denen die beiden Kriterien zwei und drei erfüllt sind. Ein Spamwahrscheinlichkeit von 82 Prozent sagt hier aus, dass 820.000 Seiten tatsächlich Spam sind. Allerdings würden wir 180.000 gute Seiten zu unrecht abwerten – und das hätte negative Auswirkungen auf unseren Index. Denn Nutzer würden nun gute Seiten nicht mehr finden können.
Umgekehrt heißt das aber auch, dass Seiten, die viele gute Signale haben, locker einige Spam-Signale vertragen, ohne gleich abgewertet zu werden. Wer nun unbekümmert auf seinem neuen, kleinen SEO-Projekt alles nachmacht, was eine Topseite so anstellt, sollte sich nicht wundern, wenn er dafür abgestraft wird. Denn die Topseite retten ihre vielen positiven Signale, während das kleine SEO-Projekt lediglich die negativen Spam-Signale vorweisen kann.
Wichtig an diesem kleinen mathematischen Ausflug sind nicht die Details der Rechnung oder die genauen Ergebnisse. Mir ging es vielmehr darum, an einigen konkreten Beispielen die Wirkungsweise von Spam-Signalen aufzuzeigen. Besonders schön sieht man dies am geringen Einfluss des Signals “Zu viele Footer-Links”; dieses Signal kommt zwar auf 90% aller Spamseiten vor, trotzdem hat es kaum Auswirkungen auf die Spameinschätzung unseres Algorithmus.
Hinweis: Die aufgeführten Spam-Kriterien und ihre Wahrscheinlichkeiten sind pure Fantasie! Ebenso funktioniert der Google-Algorithmus sicherlich anders als hier anhand des Bayes-Filters erklärt. Die Rechnungen dienen lediglich dazu, den mathematischen Sachverhalt anhand einiger konkreter Zahlen zu verdeutlichen.
13 Kommentare
Entschuldige, das Kommentarformular ist zurzeit geschlossen.


Alex
8. Februar 2010 13:15Super-Artikel Stefan, bloss bei Mathe bin ich etwas überfordert (hehe). Dein Artikel zeigt gut das “Dilemma” von SEO, sobald es um “generelle SEO-Aussagen” geht. Keine Webseite ist wie die andere und – wie du sagst – was Seite A macht, kann Seite B in den Filter bringen. Wird Zeit dass sich das mal noch mehr rumspricht.
Christoph
8. Februar 2010 13:58Hi Stefan. Danke für den sehr guten Artikel. Wenn man noch die feingranularität erhöht kann man ja auch solche Signale auf URL Basis berechnen und dann kumuliert der Domain einen Wert mitgeben, nach dem dann z. B. Einzelpenalties auf URL Basis oder gar ein Domainfilter vergeben wird. Man könnte auch noch Verteilungswahrscheinlichkeiten mit ins Boot holen, da ja manchmal recht häufig Fehler passieren, die dem Webmaster nicht aufgefallen sind (Anzahl interner DC Seiten durch search queries, etc. pp) und das Ganze mal simulieren. Den Ansatz von Dir find ich aber spitze. Nochmals Danke.
Frank
8. Februar 2010 15:32Danke Stefan. Ich zitiere: “Umgekehrt heißt das aber auch, dass Seiten, die viele gute Signale haben, locker einige Spam-Signale vertragen, ohne gleich abgewertet zu werden.”
Jo. Wir versuchen SEO immer wieder zu simplifizieren. Hilft ja auch zuweilen. Gleichzeitig schreibe ich immer wieder, dass SEO eine differenzierte Angelegenheit ist. Diese Aussage unterstützt dein Artikel und speziell das Zitat. Was in einem Fall funktioniert, muss in einem anderen noch lange nicht wirken. Die Vielzahl der einfließenden Signale mit Unterschieden an der ein oder anderen Stelle macht dann insgesamt den Unterschied.
Andreas
9. Februar 2010 14:10Super, dass Du den guten alten Bayes´schen Satz als Beispiel genommen hast, besser kann man die Multikausalität von Rankinggeschehen nicht verdeutlichen. Noch spannender wärs vielleicht, wenn modernere Verfahren wie MDS / Clusteranalyse ins Spiel kämen, welche die Nähe verschiedener Seiten zueinander als Signal einfließen lassen können und so Konstrukte wie Trust und Bad Neighborhood in dem Zusammenhang operationalisieren könnten.
Stefan
9. Februar 2010 14:28Andreas und Christoph,
sicherlich ließe sich da noch jede Menge speziellerer Vorgehensweisen entwickeln – und das ist auch definitiv sehr spannend. Das Ziel der Artikels war aber lediglich, aufzuzeigen, wie Signale wirken können und dass man sich nicht auf monokausale Wirkungsweisen verlassen darf.
Andreas
9. Februar 2010 14:51und dafür ist Bayes spitze. Ich wollte schon länger mal einen auf Bayes basierenden Commentspam-Algo auf den vollen Content einiger Webseiten loslassen und schauen, was da für typische Muster herauskommen. Im Gegensatz zu den von Christoph & mir genannten Verfahren ließe sich sowas ja schnell in PHP zusammenbasteln
Gernot
9. Februar 2010 17:20Hallo Stefan, vielen Dank für den netten Artikel. Das Wort “Signal” hatte ich tatsächlich schon einmal vorher im Zusammenhang mit Ranking-Faktoren gelesen und mir dabei gedacht, warum es nun Signale und nicht Faktoren sind. Aber was soll’s.
Zu dem Inhalt müsste das Fazit eigentlich wie immer lauten: “Man weiß, das man nichts weiß” und “Google ist ein Geheimnis”. Leider muss ich Dir sagen, dass ich trotz aller Mathematik in Deinem Beitrag nichts neues dazugelernt habe, da die Essenz des Artikels ein bissi “Wischi-Waschi” war. Nichts desto trotz war dieses “Wischi-Waschi” unheimlich schön umschrieben.
Beim Linknetz-Aufbau auf Provider-Popularity achten « SuchmaschinenTricks.de
11. Februar 2010 12:29[...] Sicherlich kommt man an diese Infos auch über eine Whois-Abfrage oder über einen traceroute-Aufruf. Sind solche Abfragen aber im großen Stil notwendig, sind beide Alternativen zu langsam. DNS hingegen dürfte der schnellste und zuverlässigste Dienst im Internet sein. Es ist für Google somit ein leichtes, über eine simple DNS-Abfrage eine Verwandschaft der beiden Domains herzustellen. Und natürlich wird eine derart ermittelte Größe kein klassisches Ranking-Kriterium sein, sondern höchstens wieder nur ein Signal. [...]
Daniel
11. Februar 2010 20:07Hm und wenn ich mal ganz drastisch nur 20% Spam-Seiten ansehe (vielleicht auch schon durch weitere Google-Filter erfasst..) dann habe ich nur eine Wahrscheinlichkeit von 71% durch die Backlinks?
SEO House - Again | Radio4SEO -SEO Podcast & Radio
25. Februar 2010 17:01[...] Fischerländer schreibt über den Unterschied zwischen Kriterien und Signalen (http://www.suchmaschinentricks.de/aktuelles/ranking/1065.php). Wir denken, dass Stefan damit sehr gut erklärt, dass es keine einfachen Regeln gibt. Es [...]
Suchmaschinen und SEO Februar 2010 - Inhouse SEO
1. März 2010 13:42[...] Von Spam-Signalen und Ranking-Faktoren – Für alle die, die einfache Regeln wollen. Ist leider nicht
[...]
SEO CAMPIXX 2010 Recap | 121WATT-Blog
15. März 2010 11:57[...] sehen welche neue Möglichkeit es für die Integration neuer bzw. die Verbesserung bestehender Signale [...]
Klaus
1. Mai 2010 18:29vielen Dank für die interessante Abhandlung. Ich vermute ja, dass die Experten in Mountain View diese Filter mit vielen anderen intelligent zusammenbinden und so ziemlich raffiniert die diversen Tricks aushebeln. Aber das wird den Experten auf beiden Seiten des ewigen “Hase und Igel-Spiels” ja durchaus auch einigen Thrill geben.