Unvollständige robots.txt, was passiert?

Ich habe eine Seite auf einer Website und habe keinen Zugriff auf etwas anderes als meine Seite. Die Website wird verwendet, um verschiedene kleine Produkte zu verkaufen. Nachdem ich über ein Jahr mit ihnen zusammen war und Google Adwords verwendet habe, um mich selbst zu promoten, bemerkte ich, dass keine der Produktseiten auf Google indexiert wurde. Als ich bemerkte, dass die robots.txt für die Seite nicht viel enthielt, und fragte mich, ob das etwas damit zu tun hat.Unvollständige robots.txt, was passiert?

Produkt URLs folgen diesem Format:

www.example.com/myshopname/[product ID]?q=I[product ID]

Und die robots.txt ist einfach:

Disallow: /*_escaped_fragment_

Es gibt keinen User-Agent. Ich frage mich, ob dies Auswirkungen auf das Crawlen meiner Seite durch Google hätte oder ob es die robots.txt ignorieren würde, da kein User-Agent angegeben wurde.

Quelle

2016-10-02 Alex

Hier finden Sie weitere Informationen: https://moz.com/learn/seo/robotstxt – Franco

@Franco Ich habe Dokumentation über Roboter gelesen, nichts über unvollständige robot.txt-Dateien. Von dem, was ich weiß ist, dass Sie zuerst einen Benutzer-Agent eingeben müssen, dann die Regel verbieten. Ich bin mir nicht sicher, was passiert, wenn kein User-Agent angegeben wird ... verhalten sich Roboter so, als wäre User-Agent *, oder ignoriert sie einfach die Disallow-Regel, da kein User-Agent angegeben wird. Wenn es als User-Agent * handeln würde, wie würde dann die Regel angewendet? Da das AJAX-Crawling jetzt veraltet ist, ignoriert es diese Regel? – Alex

Diese Roboter.txt ist ungültig (gemäß original specification), da jeder Datensatz mindestens eine User-agent und mindestens eine Disallow Zeile erfordert.

Die Spezifikation besagt nicht, dass Verbraucher ungültige Datensätze interpretieren sollten (versuchen).

So Spekulation:

Strict Verbraucher wird diese ungültige Datensatz ignorieren. Für diese Verbraucher, wird Ihre robots.txt zu einem nicht vorhandenen robots.txt gleichwertig sein, die diesen einen äquivalent ist:
```
User-agent: * 
Disallow: 
```
(dh alles ist erlaubt)
Polite Verbraucher können davon ausgehen, dass der Autor eine User-agent: * für diese Aufzeichnung haben wollte. Für diese Verbraucher, wird Ihre robots.txt auf diese ein Äquivalent sein:
```
User-agent: * 
Disallow: /*_escaped_fragment_ 
```

In jedem Fall Ihre robots.txt wird (wahrscheinlich) von Crawling-URLs, deren Wege mit /myshopname/ beginnen keine Verbraucher stoppen (es sei denn, die URL enthält _escaped_fragment_, in diesem Fall könnten einige Verbraucher aufhören zu kriechen, dh diejenigen, die als Wildcard interpet * sind, die übrigens nicht Teil der ursprünglichen Spezifikation ist).

Quelle

2016-10-03 22:41:16 unor

Danke, das ist, was ich gesucht habe. Raten Sie, ob der Roboter kriechen wird, hängt davon ab, wie er dies zu interpretieren versucht. – Alex

Ich gebe Ihnen ein paar mehr Infos hier:

Die robots.txt-Datei ist eine einfache Textdatei auf Ihrem Web-Server, die webcrawlers sagt, wenn sie eine Datei oder nicht zugreifen können. Sie können immer auf diese Datei zugreifen, da sie nicht Teil Ihrer Server-Systemdateien ist, sondern Teil Ihrer Site ist.

In Ihrem Fall ich weiß nicht, was diese /*_escaped_fragment_ Mittel aber:

User-agent: * 
Disallow:/

den Zugang zu allen Crawlern Block

Während dies:

User-agent: * 
Disallow:

zulassen Voller Zugriff auf Ihre Website.

User-agent: * 
Disallow: /images/

Wird Zugriff auf den angegebenen Ordner sperren

User-agent: * 
Disallow: /images 
Allow: /images/my_photo.jpg

Auch wenn Sie einen Ordner nicht zulassen Sie immer Zugriff auf eine bestimmte Datei in dem Ordner geben kann.

User-agent: * 
Disallow: /assets.html

blockiert den Zugriff auf die angegebene Datei

So ist die star bedeutet, dass alle Raupen, wenn Sie die Richtlinien auf einen bestimmten Crawler anwenden möchten Sie tun müssen:

User-agent: Googlebot

Wenn Sie speziell sind Interesse an googlebot und Sie möchten sehen, ob Ihre robot.txt Dateien oder Ordner auf Ihrer Website blockiert, besuchen Sie einfach die https://developers.google.com/, so dass Sie sehen können, wenn Sie Seitenressourcen blockieren.

Es ist auch notwendig zu sagen, dass, während die robot.txt ein nützliches Werkzeug für Ihre SEO sein kann, die angewandten Richtlinien von allen regulären Crawler respektiert werden.

Böswillige Crawler interessieren sich nicht für diese Anweisungen.

Quelle

2016-10-03 08:50:57 Franco

Ich wusste bereits, wofür robots.txt ist, wie man es benutzt, und Dokumentation darüber. Meine Frage war, wie würde eine ** unvollständige ** Roboter-Datei gelesen werden. – Alex

Unvollständige robots.txt, was passiert?

Antwort

Verwandte Themen