Question 1

Wo platziere ich die robots.txt-Datei?

Accepted Answer

Die robots.txt-Datei muss im Stammverzeichnis deiner Website platziert werden, erreichbar unter https://deinedomain.de/robots.txt. Sie funktioniert nicht in Unterverzeichnissen.

Question 2

Blockiert robots.txt Seiten davor, in Google zu erscheinen?

Accepted Answer

Nicht genau. Robots.txt blockiert das Crawling, nicht das Indexieren. Wenn andere Seiten auf eine von dir gesperrte Seite verlinken, kann Google sie trotzdem in Suchergebnissen anzeigen (ohne Snippet). Um das Indexieren vollständig zu blockieren, verwende stattdessen ein 'noindex' Meta-Tag.

Question 3

Was bedeutet 'User-agent: *'?

Accepted Answer

Das Sternchen (*) ist ein Platzhalter, der alle Crawler abgleicht. Regeln unter 'User-agent: *' gelten für jeden Bot, der keinen eigenen spezifischen Abschnitt in der Datei hat.

Question 4

Sollte ich KI-Crawler wie GPTBot blockieren?

Accepted Answer

Das hängt von deiner Präferenz ab. Wenn du nicht möchtest, dass dein Inhalt für KI-Training verwendet wird, kannst du 'User-agent: GPTBot' mit 'Disallow: /' hinzufügen, um OpenAIs Crawler zu blockieren. Ähnliche Regeln existieren für andere KI-Bots wie Google-Extended und CCBot.

Question 5

Was ist Crawl-delay?

Accepted Answer

Crawl-delay weist Bots an, eine bestimmte Anzahl von Sekunden zwischen Anfragen zu warten. Es wird von Bing und Yandex unterstützt, aber von Google ignoriert. Verwende es, wenn aggressives Crawling deinen Server überlastet.

Question 6

Kann ich Wildcards in robots.txt-Pfaden verwenden?

Accepted Answer

Google und Bing unterstützen begrenzte Wildcards: * entspricht einer beliebigen Zeichenfolge, und $ markiert das Ende einer URL. Zum Beispiel blockiert 'Disallow: /*.pdf$' alle PDF-Dateien. Nicht alle Bots unterstützen diese Erweiterungen.

Question 7

Wie teste ich meine robots.txt vor dem Hochladen?

Accepted Answer

Verwende die Google Search Console oder Bing Webmaster Tools, die einen robots.txt-Tester haben. Du kannst dort URLs eingeben und sehen, ob sie blockiert oder erlaubt werden. Teste immer wichtige Seiten, bevor du Änderungen live schaltest.

Robots.txt Generator

Uber dieses Tool

Anleitung

Haufig gestellte Fragen

Verwandte Tools

Htaccess Redirect Generator

IP-Subnetz-Rechner

Cron-Ausdruck-Generator