Crawler auf deiner WordPress-Seite

Suchmaschinen-Crawler sind wichtig für dein SEO-Ranking, da sie deine Website indexieren und in Suchmaschinen sichtbar machen. Allerdings gibt es auch schädliche oder zu aggressive Crawler, die deine Website verlangsamen können.

Bessere Lösungen statt kompletter Blockierung

Bevor du Crawler blockierst, beachte:

Google, Bing & Co. sollten nicht blockiert werden, da sie dein Ranking beeinflussen.
Nicht alle Bots halten sich an die `robots.txt`-Regeln – schädliche Bots ignorieren sie oft.
Cloudflare ist eine bessere Lösung, um bösartige Bots automatisch zu erkennen und legitime Crawler nicht zu beeinträchtigen.
Crawler werden nicht immer korrekt erkannt – Manche erscheinen in den Website-Protokollen als menschliche Zugriffe.

Schritt 1: Zugriff auf die `robots.txt`-Datei in Plesk

Logge dich in der Hosting-Oberfläche ein
Gehe zur Dateiverwaltung
1. Nach dem Einloggen siehst du das Plesk-Dashboard.
2. Klicke auf deine Domain, die du verwalten möchtest.
3. Wähle im linken Menü „Dateien“ aus. Dies öffnet den Dateimanager, in dem du die Dateien deiner Website sehen kannst.

Schritt 2: `robots.txt`-Datei erstellen oder bearbeiten

Suche im Hauptverzeichnis (httpdocs) nach der Datei robots.txt.
Falls die Datei existiert, öffne sie zum Bearbeiten. Falls nicht:
1. Klicke auf das blaue Plus und anschließend auf 'Datei erstellen"
2. Benenne die Datei 'robots.txt' und klicke auf OK.

Schritt 3: Crawler in der `robots.txt`-Datei verwalten

Auffällige Crawler identifizieren

Überprüfe die Website-Protokolle auf häufige, ungewöhnlich schnelle Anfragen.
- Diese können zum Beispiel so aussehen:

In diesem Fall wurde der Crawler von unserer Web Application Firewall erkannt und gibt nähere Informationen bezüglich der Herkunft heraus, dies ist nicht immer der Fall.

Solltest du den Verdacht von Crawlern auf deiner Website haben, überprüfe dies, anhand des Agent-Icons wie hier zu sehen:
- in diesem Fall handelt es sich um einen Crawler von Meta und nähere Informationen sind unter der angegebenen URL zu finden.
Der User-Agent gibt an, welcher Crawler die Anfragen sendet (z. B. ByteSpider).

Bestimmte Crawler blockieren

Füge in die robots.txt folgende Zeilen hinzu:

User-agent: ByteSpider Disallow: /

Diese Anweisung blockiert lediglich den Crawler, welcher von „ByteSpider“ stammt, sollte es sich in deinem Fall um einen anderen Crawler handeln, ersetze „ByteSpider“ mit dem zutreffenden User-Agenten.

Falls du mehrere Crawler blockieren willst:

User-agent: BadBot Disallow: / User-agent: AnotherBot Disallow: /

Nur bestimmte Bereiche der Website schützen

Falls du nicht alle Crawler blockieren, sondern nur sensible Bereiche schützen möchtest:

User-agent: * Disallow: /private/

Dies erlaubt Crawlern den Zugriff auf die Website, aber sie dürfen /private/ nicht durchsuchen.

Schritt 4: Änderungen überprüfen

Öffne deinen Browser und rufe www.deine-domain.de/robots.txt auf.
Prüfe, ob die Änderungen korrekt angezeigt werden.

Alternative: Cloudflare für besseren Schutz nutzen

Statt einzelne Crawler manuell zu blockieren, kannst du Cloudflare aktivieren:

Bot Management erkennt und limitiert schädliche Bots automatisch.
Rate Limiting drosselt verdächtig hohe Anfragen.
Firewall-Regeln können aggressives Crawling verhindern.

Fazit

✅ robots.txt kann helfen, aber nicht alle Bots respektieren sie.
✅ Nutze Cloudflare für besseren Schutz ohne SEO-Verlust.
✅ Überwache deine Website-Protokolle, da nicht alle Crawler als Bots erkannt werden.

Verwandte Artikel

Fehlermeldung: Error 508 Resource Limit is reached