In einer Diskussion unserem 10K Kommentar Wettbewerb wird gerade in einer Teildiskussion über den Einsatz der Robots.txt diskutiert.

Im Zuge dieser Diskussion wurde die Möglichkeit angesprochen dem Google Bot mittels einem Noindex Befehls das indizieren eine Seite zu verbieten.

Eigentlich werden noindex Befehle über die Meta Angabe z.B. <meta content="”noindex”" name="”robots”" /> gegeben.
Doch scheinbar akzeptiert Google auch schon mindestens seit 2009 den Befehl über die robots.txt zu bekommen.

Z.B
User-agent: Googlebot
Noindex: /impressum.php

So würde man dem Googlebot befehlen die impressum.php nicht in den Index der Suchmaschine Google aufzunehmen

Das war jetzt für mich neu und ist sicherlich auch für viele andere Webmaster.

Der Nutzten den noindex Befehl in die Robots.txt zu legen

Ja wo ist da der Nutzen den noindex Befehl in die Robots.txt zu legen?
In erster Linie würde ich sagen das es Einsetzbar ist wenn sein CMS es nicht ermöglicht meta name=”robots” Angaben individuell jeder Seite zu vergeben.

Aber reicht da nicht auch der Disallow: Befehl in der Robots.txt?

Bei der Gelegenheit auch mal eine Frage in die Runde der vielleicht mitlesenden Profis 🙂

Es geht um folgendes.
Ein Shopsytem (Gambio) erzeugt Duplicate Content weil es verschiedene URLs mit gleichen Inhalten erzeugt.

z.B.
1. URL: produktname.html
2. URL: produktname.html.

Genau hinschauen. Bei der zweiten URL ist ein Punkt hinterm html

Diese Seiten mit dem Punkt sind nun auch im Index.
Eine kanonische Seite kann jetzt erstmal nicht mit dem CMS auf einfache Weise angegeben werden. (Tipps dazu sind auch willkommen)
Der Versuch ist nun dem Bot mittels Robots.txt das Indizieren zu verbieten.

Habt Ihr eine Idee welche Anweisung dafür in die Robots.txt geschrieben werden muss?

Mein Vorschlag war
User-agent: Googlebot
Disallow: /*.html.$
Noindex: /*.html.$

Mit dieser Anweisung möchte ich erreichen dass der Zugriff auf alle URLs gesperrt ist, die mit „.html.“ enden:
Zusätzlich dann zur Absicherung noch den robots.txt noindex Befehl
User-agent: Googlebot
Noindex: /*.html.$

Was meint ihr kann man das so machen?

Ich freue mich auf sachkundige Hinweise Erfahrungen und Kommentare.
Im Anschluss werde ich eine Seite mal erstellen und mit dem Robots.txt Befehl User-agent: Googlebot Noindex: / versehen.

Grüße
Lothar

Eure Kommentare zum Beitrag Noindex Befehl in die Robots.txt legen



Bitte auch die Social Media Signale nicht vergessen

3 Antworten auf Noindex Befehl in die Robots.txt legen

  • Ja, nur wenn man von Google lebt, was Google selber nicht gut findet, man sollte von Besucher leben.

    LG

  • Ja das hatte ich ja auch so geschrieben.

    User-agent: Googlebot
    Noindex: /*.html.$

    Da man ja von Google lebt reicht es einem ja auch aus das der Googlebot auf diese Anweisung hört.
    Grüße
    Lothar

  • Moin Lothar,

    ich glaube es wird ja nur Googlebot an den noindex Befehl im robots.txt hält, alle andere bots sind nicht so Intelligent.

    Mit meta namen, das Spiel mit vorsicht zu genießen.

    LG
    Viktor

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

This Blog will give regular Commentators DoFollow Status. Implemented from IT Blögg