Seiten aus dem Google Index entfernen

Wie entferne ich URLs aus dem Google Index?

Ausschluss über robots.txt

Es gibt viele Wege. Allerdings sind nur wenige schnurgerade. Rein intuitiv greifen viele SEO Experten und Webmaster zur einfachen Methode des Ausschlusses über die robots.txt. Nichts einfacher als das. Die robots.txt bietet sich geradezu an für Aufgaben, wie diese. Hierzu findet man mannigfaltige Anleitungen im Netz, wie bestimmte URLs auszuschliessen sind. Allerdings bedeutet ein Ausschluss nicht gleich eine Nichtindexierung, also ein NoIndex. Es ist gut möglich, dass besagte Seiten nicht mehr in den SERPs auftauchen, jedoch trotzdem im Google Index existent sind.
Schliesslich wird bei der Site-Abfrage (site:meine-domain.de) bei Google der Wert an Seiten ausgegeben, der sich im Index befindet und trotzdem wird man nur einen Bruchteil dieser Seiten als SERPs einsehen können.
Ein weiteres Problem beim Ausschluss über die robots.txt stellen Subdomains dar. Der Ausschluss dieser Seiten ist über die robots.txt gar nicht erst möglich. So sehen wir, dass der Ausschluss über die robots.txt nicht gerade das Mittel der Wahl ist, da er nicht zum gewünschten Ergebnis führt.

Die Idee der Weiterleitung mit der htaccess

Die Idee der Weiterleitung über ein Redirect in der htaccess, selbst wenn man in der Lage wäre diese in grosser Anzahl zu erstellen, wird scheitern, da die htaccess Datei vom Crawler durchlaufen wird, bevor überhaupt die URLs generiert wurden. Ein Redirect ist eher für statische URLs geeignet. Zudem liegt es in der Natur einer Session-ID, dass es davon nicht nur eine gibt, sondern diese pro Session vergeben wird. Ebenso ungeschickt sind angehängte Such-IDs, etc. Auch hier wird man mit der htaccess kaum weiterkommen.

Ausschluss über Nofollow

Die Anwendung der Nofollow Anweisung scheint auf den ersten Blick vielversprechend zu sein. Hier haben wir die Option alle Seiten, die wir uns nicht im Index wünschen, mit dem Metatag Nofollow zu versehen. Dies wäre eine Anweisung, die direkt an den Google Crawler gerichtet ist und auf den ersten Blick einleuchtet. Bleiben wir bei dem Beispiel mit dem Onlineshop, müsste man im Hintergrund ein System stricken, das alle im Google Index unerwünschten Shopseiten mit dem Nofollow Metatag versieht. Klingt genial. Man könnte sogar einen Schritt weitergehen und alle Links, die innerhalb einer Seite existieren und ebenfalls nicht in den Index sollen, mit dem Nofollow Attribut versehen. Doch auch hier wird sich nicht das gewünschte Ergebnis einstellen. Die Anzahl der indexierten Seiten wird kaum abnehmen. Zudem würde sich eventuell auch noch ein unangenehmer Nebeneffekt einstellen, dass man mit den ausgesperrten Seiten den Weiterfluss des Linkjuices verhindert. Der Grund hierfür ist, wie vielleicht versierte SEOs mit einer guten SEO-Strategie wissen, dass "Nofollow" ebend nicht "Noindex" ist.

Ausschluss über Noindex

Die Noindex Anweisung hat zur Folge, dass jene Seiten von Google tatsächlich nicht indexiert werden. Und danach suchen wir. Wir möchten bestimmte Seiten aus dem Index verbannen. Entweder wir versehen die Links, die zu unerwünschten Seiten zeigen mit dem Noindex Attribut oder wir versehen die unerwünschten Seiten selbst mit dem Noindex Metatag. Die erste Variante wird wohl in der Umsetzung einfacher sein. Hiermit unterbinden wir die Indexierung unerwünschter Seiten durch den Googlebot, allerdings lassen wir zu, dass der Linkjuice weiter fliessen kann. Damit erhalten wir die interne Querverlinkung.
Weitaus besser, als unerwünschte Seiten im Nachhinein auszuschliessen, ist es diese erst gar nicht entstehen zu lassen. Dies dürfte aber nicht immer möglich sein, bzw. nur unter erhöhtem Aufwand umsetzbar sein. Nur sauber programmierte Shops, die von Anfang an eine gute SEO-Beratung bei der Umsetzung miteinbeziehen, werden mit dieser Problematik verschont bleiben. Wie schon weiter oben bemerkt, spielt nicht einzig-und-allein der Shop eine Rolle, sondern auch eine integrierte Suche, die mehr leistet, als der Durchschnitt. Das Suchmodul sollte entsprechend angepasst werden. Daher sage ich immer wieder gerne, "vorausdenken ist besser, als nacharbeiten".

Ausschluss von https bzw. ssl Seiten aus dem Google Index

Ein besonders delikater Fall von unerwünschten URLs im Google Index sind die https bzw. ssl Seiten. Der Ausschluss über die htaccess ist hier nicht möglich. Auch ein Ausschluss über robots.txt ist auch nicht machbar und ein Ausschluss über die WebmasterTools berücksichtigt https ebensowenig, womit die Verbannung über die üblichen Methoden hier nicht funktioniert. Was tun? Gar nichts. Das wird Google irgendwann erkennen und selbst wieder aus dem Index werfen.