Seiten
aus dem Google Index entfernen
...oder Seiten in den Google Index hineinbekommen? Das ist tatsächlich
eine gar nicht so einfache Frage. Bei beiden Anforderungen erhält man
nicht wenige Treffer, sofern man Google selbst befragt. Beide
Probleme treten häufig
auf und wollen gelöst
werden. Wobei ich meine, dass es durchaus einfacher ist die Seiten
in den Index zu bekommen, als sie wieder aus dem Google Index zu entfernen.
Zu
wenig Seiten im Google Index?
Die Tatsache, dass
ein Seitenbetreiber zu wenige Seiten im Google Index hat, lässt
darauf schliessen, dass die übrigen Seiten, die nicht aufgenommen
wurden, möglicherweise für den Googlebot nicht zugänglich
sind. Nagut, hier hat man die Option jene Seiten in der Sitemap
aufzuführen und diese damit Google mitzuteilen. Wenn Google
dann immer noch kein Interesse an den Seiten hat, sollte sich
der zuständige Suchmaschinenoptimierer irgendwann die
Frage nach dem "Warum" stellen.
Nun könnte es etwas psychologisch werden. Google versucht
die Seiten aus dem Blickwinkel eines interessierten Besuchers
zu beurteilen. Muss Google feststellen, dass die zur Diskussion
stehende Seite keinen Mehrwert für den Besucher darstellt,
weil schon andere Seiten jener Domain diesen Bereich abdecken
oder aus anderen Gründen kein Mehrwert gegeben ist, wird
Google die Seite nicht in den Index aufnehmen. Darin ist Google
mittlerweile sehr gut. Und jetzt kommt die Psychologie ins Spiel.
Sollte der Seitenbetreiber dies von Google mitgeteilt bekommen,
beispielsweise über das Webmastertools-Forum, so heisst
das noch lange nicht, dass der Seitenbetreiber dies akzeptieren
wird. Er wird in vielen Fällen steif und fest behaupten,
dass die Seite durchaus einen Mehrwert für den Besucher
darstellt. Die Wahrheit ist hart und das ist die Psychologie
an dieser Gegebenheit. Das Eingeständnis des Seitenbetreibers
erfolgt nicht. Damit blockiert er sich selbst, da er nicht gewillt
ist die zur Diskussion stehende Seite so umzugestalten, dass
diese tatsächlich einen Mehrwert darstellt. Wie man sieht
gibt es durchaus Möglichkeiten die Seiten vielleicht doch
noch in den Google Index zu bekommen.
Zu viele Seiten
im Google Index?
Wie bekomme ich Seiten aus
dem Google Index wieder raus, ist für mich eine wesentlich interessantere
Frage, als die Frage, wie man diese hineinbekommt. Und hier rede ich nicht über
5 Seiten oder 50, sondern ich rede hier über Zehntausende von Seiten.
Selbstverständlich kann ich einzelne Seiten mit Hilfe von Google
Webmastertools (WMT) aus dem Index verbannen. Aber machen Sie das mal
mit 100 oder mehr Seiten. Das ist schlimmer, als Fliessbandarbeit. Bevor
wir allerdings diskutieren, wie wir diese vielen Seiten aus dem Google
Index entfernen können, widmen wir uns der Frage, wie und wo es überhaupt
passieren kann, dass man so viele Seiten im Google Index findet. Wir möchten
ja schliesslich nicht nur das Symptom bekämpfen, wie die Schulmedizin
das ständig macht, sondern auch an die wahre Ursache der Problematik
gelangen und das Problem an der Wurzel packen.
Ein solches Phänomen ist meist bei Webseiten zu beobachten, die einen
Teil der URL aus kryptischen Bereichen zusammensetzen. Oft passiert dies,
wenn eine Session-ID an die URL angehängt wird. Es werden auch teilweise
Suchparameter noch an die jeweilige URL gehängt. Diese Methodik ist
häufig bei Onlineshops zu beobachten. Gerne machen das auch ausgefeilte
Suchmodule, die bei Onlineshops integriert sind. Diese stellen dann ein
eigenes Suchergebnis an Produkten zusammen und das geschieht häufig
mit Hilfe von kryptischen URLs. Selbst wenn das jeweilige Shopsystem auf
sprechende URLs ausgelegt ist kann es passieren, dass zusätzlich
tausendfach Session-ID-URLs existieren und diese geraten unweigerlich
in den Google Index. Und dann haben wir den Salat. Nicht selten stellt
man mit Erschrecken fest, dass tagtäglich hunderte von neuen URLs
im Index landen. Warum ist dies überhaupt ein Problem, wird sich
so mancher fragen. Weil ein Zuviel genauso schädlich sein kann, wie
ein Zuwenig. Zu viele URLs lenken vom Wesentlichen ab.
|
|
Wie
entferne ich URLs aus dem Google Index?
Ausschluss über
robots.txt
Es gibt viele Wege.
Allerdings sind nur wenige schnurgerade. Rein intuitiv greifen
viele SEO Experten und Webmaster zur einfachen Methode des
Ausschlusses über
die robots.txt. Nichts einfacher als das. Die robots.txt bietet
sich geradezu an für Aufgaben,
wie diese. Hierzu findet man mannigfaltige Anleitungen im Netz,
wie bestimmte URLs auszuschliessen sind. Allerdings bedeutet ein
Ausschluss nicht gleich eine Nichtindexierung, also ein NoIndex.
Es ist gut möglich, dass besagte Seiten nicht mehr in den
SERPs auftauchen, jedoch trotzdem im Google Index existent sind.
Schliesslich wird bei der Site-Abfrage (site:meine-domain.de)
bei Google der Wert an Seiten ausgegeben, der sich im Index befindet
und trotzdem wird man nur einen Bruchteil dieser Seiten als SERPs
einsehen können.
Ein weiteres Problem beim Ausschluss über die robots.txt
stellen Subdomains dar. Der Ausschluss dieser Seiten ist über
die robots.txt gar nicht erst möglich. So sehen wir, dass
der Ausschluss über die robots.txt nicht gerade das Mittel
der Wahl ist, da er nicht zum gewünschten Ergebnis führt.
Die Idee der
Weiterleitung mit der htaccess
Die Idee der Weiterleitung über
ein Redirect in der htaccess, selbst wenn man in der Lage wäre
diese in grosser Anzahl zu erstellen, wird scheitern, da die htaccess
Datei vom Crawler durchlaufen wird, bevor überhaupt die URLs
generiert wurden. Ein Redirect ist eher für statische URLs
geeignet. Zudem liegt es in der Natur einer Session-ID, dass es
davon nicht nur eine gibt, sondern diese pro Session vergeben
wird. Ebenso ungeschickt sind angehängte Such-IDs, etc. Auch
hier wird man mit der htaccess kaum weiterkommen.
Ausschluss über
Nofollow
Die Anwendung der Nofollow
Anweisung scheint auf den ersten Blick vielversprechend zu sein.
Hier haben wir die Option alle Seiten, die wir uns nicht im Index
wünschen, mit dem Metatag Nofollow zu versehen. Dies
wäre
eine Anweisung, die direkt an den Google Crawler gerichtet ist
und auf den ersten Blick einleuchtet. Bleiben wir bei dem Beispiel
mit dem Onlineshop, müsste man im Hintergrund ein System
stricken, das alle im Google Index unerwünschten Shopseiten
mit dem Nofollow Metatag versieht. Klingt genial. Man könnte
sogar einen Schritt weitergehen und alle Links, die innerhalb
einer Seite existieren und ebenfalls nicht in den Index sollen,
mit dem Nofollow Attribut versehen. Doch auch hier wird sich nicht
das gewünschte Ergebnis einstellen. Die Anzahl der indexierten
Seiten wird kaum abnehmen. Zudem würde sich eventuell auch
noch ein unangenehmer Nebeneffekt einstellen, dass man mit den
ausgesperrten Seiten den Weiterfluss des Linkjuices verhindert.
Der Grund hierfür ist, wie vielleicht versierte SEOs mit
einer guten SEO-Strategie wissen,
dass "Nofollow" ebend nicht "Noindex" ist.
Ausschluss über
Noindex
Die Noindex Anweisung
hat zur Folge, dass jene Seiten von Google tatsächlich nicht
indexiert werden. Und danach suchen wir. Wir möchten bestimmte
Seiten aus dem Index verbannen. Entweder wir versehen die Links,
die zu unerwünschten Seiten zeigen mit dem Noindex Attribut
oder wir versehen die unerwünschten Seiten selbst mit dem
Noindex Metatag. Die erste Variante wird wohl in der Umsetzung
einfacher sein. Hiermit unterbinden wir die Indexierung unerwünschter
Seiten durch den Googlebot, allerdings lassen wir zu, dass der
Linkjuice weiter fliessen kann. Damit erhalten wir die interne
Querverlinkung.
Weitaus besser, als unerwünschte Seiten im Nachhinein auszuschliessen,
ist es diese erst gar nicht entstehen zu lassen. Dies dürfte
aber nicht immer möglich sein, bzw. nur unter erhöhtem
Aufwand umsetzbar sein. Nur sauber programmierte Shops, die von
Anfang an eine gute SEO-Beratung bei der Umsetzung miteinbeziehen,
werden mit dieser Problematik verschont bleiben. Wie schon weiter
oben bemerkt, spielt nicht einzig-und-allein der Shop eine Rolle,
sondern auch eine integrierte Suche, die mehr leistet, als der
Durchschnitt. Das Suchmodul sollte entsprechend angepasst werden.
Daher sage ich immer wieder gerne, "vorausdenken ist besser,
als nacharbeiten".
Ausschluss
von https bzw. ssl Seiten aus dem Google Index
Ein besonders delikater
Fall von unerwünschten URLs im Google Index sind die https bzw. ssl Seiten.
Der Ausschluss über die htaccess ist hier
nicht möglich. Auch ein Ausschluss über robots.txt
ist auch nicht machbar und ein Ausschluss über die WebmasterTools
berücksichtigt https ebensowenig, womit die Verbannung über
die üblichen Methoden hier nicht funktioniert. Was
tun? Gar nichts. Das wird Google
irgendwann erkennen und selbst wieder aus dem Index werfen.
|