Feeds: RSS 2.0 | RSS 0.92 | Atom

Google und das Deep Web: Googlebot füllt auch Formulare aus

geschrieben am 12.04.2008 von

Wie das offizielle Google Webmaster Central Blog erläutert, füllt Google auf “high-quality sites” HTML-Formulare aus, um Seiten, die nicht verlinkt sind, zu finden. Dazu wählt der Googlebot Begriffe, die auf der Website stehen und gibt sie in die Formulare ein. Auch Radiobuttons, Checkboxen und Drop-Down-Formulare füllt der Google-Crawler auf diese Art und Weise aus. Es gab zuletzt bereits Gerüchte, dass Google das sogenannte Deep Web zu spidern versuche; so spekulierte SEO ROI, dass Google Analytics-Daten benutzt würden, um die Daten abgesendeter Formulare auszuwerten und in den Index aufzunehmen. SEO ROI hatte beobachtet, dass für die Website brianchappell.com URLs der Sitesuche im Google Index auftauchen.

Der Googlebot wird nur Formulare bearbeiten, die mittels GET abgesendet werden. Damit soll sichergestellt werden, dass keinerlei Informationen in der Datenbank der betroffenen Website geändert werden. Denn GET sollte in der HTTP-Kommunikation ausschließlich für lesende Zugriffe verwendet werden. (Mehr Infos zu REST-Webservices finden Sie z.B. hier.) Natürlich bedient sich Google auch nicht an Formularen mit Passwort-Feldern; ebenso werden alle robots.txt-Anweisungen sowie noindex und nofollow berücksichtigt. Alle auf diese Weise erhaltenen Ergebnisseiten werden daraufhin überprüft, ob die Inhalte eigenständig sind und dann gegebenenfalls in den Index aufgenommen. Darüber hinaus stellt Google fest, dass die so eventuell zusätzlich gefundenen Seiten keinesfalls einen Einfluss auf die bereits im Index befindlichen regulären Seiten haben werden.

Wie groß der Anteil des Deep Web wird, den Google so in den Index aufnehmen wird, ist noch nicht abzuschätzen. Denn eine Frage stellt sich mir (und auch anderen): Wie gut wird Google es schaffen, unerwünschte Unterseiten – etwa die Ergebnisseiten anderer Suchmaschinen – aus dem Index fernzuhalten? Sollte das Formularausfüllen eines Tages auch auf normalen Seiten üblich werden, wäre das ein willkommenes Einfallstor für jeden Blackhat-SEO. Und noch eine Problematik könnte sich auftun: Ausgefüllte Formulare werden häufig als “Conversion” definiert und dienen der Erfolgsmessung von Websites. Die entsprechenden Messungen müssen künftig darauf Rücksicht nehmen.

1 Kommentar

Entschuldige, das Kommentarformular ist zurzeit geschlossen.

SEOlytics
- Anzeige -

Weitere Artikel

SEO Cheat-Sheet

Termine

Suchmaschinen-Ranking

Suchmaschinen-Verzeichnis

Suchmaschineneintrag

Intern

Linktipps

Archiv: 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004, 2003, 2002, 2001, 2000