Wie behandeln Web-Crawler Javascript?

Heute wird viel Inhalt im Internet mit JavaScript (speziell durch Hintergrund-AJAX-Aufrufe) generiert. Ich habe mich gefragt, wie Web-Crawler wie Google mit ihnen umgehen. Kennt sie JavaScript? Haben sie eine integrierte JavaScript-Engine? Oder ignorieren sie einfach alle JavaScript-generierten Inhalte auf der Seite (ich denke ziemlich unwahrscheinlich). Verwenden Personen bestimmte Techniken, um ihren Inhalt indizieren zu lassen, der ansonsten über Hintergrund-AJAX-Anfragen für einen normalen Internetnutzer verfügbar wäre?Wie behandeln Web-Crawler Javascript?

Quelle

2009-11-23 Shailesh Kumar

verwenden http://stackoverflow.com/questions/1739898/html-how-to-get- my-subpages-listed-on-a-google-search Siehe die Antworten hier für "bekommen Inhalt indiziert" –

JavaScript wird von Bing- und Google-Crawlern verarbeitet. Yahoo verwendet die Bing-Crawler-Daten, daher sollte es auch behandelt werden. Ich habe mir keine anderen Suchmaschinen angeschaut. Wenn Sie sich also für sie interessieren, sollten Sie nachsehen.

Bing published guidance in March 2014, wie JavaScript-basierte Websites zu erstellen, die mit ihren Crawler arbeiten (vor allem im Zusammenhang mit pushState), den guten Praktiken im Allgemeinen sind:

Vermeiden Erstellen defekte Links mit pushState
Vermeiden zwei Erstellen verschiedene Links, die auf den gleichen Inhalt mit pushState verweisen
Vermeiden Sie cloaking. (Here's an article Bing published about their cloaking detection in 2007)
Unterstützt Browser (und Crawler), die nicht mit pushState umgehen können.

Google later published guidance in May 2014, wie JavaScript-basierte Websites zu erstellen, die mit ihren Crawler arbeiten, und ihre Empfehlungen sind ebenfalls zu empfehlen:

Sie das JavaScript (und CSS) in der robots.txt nicht blockieren Datei.
Stellen Sie sicher, dass Sie die Last der Crawler verarbeiten können.
Es ist eine gute Idee, Browser und Crawler zu unterstützen, die nicht umgehen können (oder Benutzer und Organisationen, die dies nicht erlauben). JavaScript
Tricky JavaScript, das auf obskure oder spezifische Funktionen der Sprache beruht, funktioniert möglicherweise nicht mit den Crawlern .
Wenn Ihr JavaScript Inhalte von der Seite entfernt, wird es möglicherweise nicht indiziert. herum.

Quelle

2009-11-23 18:40:34 McKay

Sieht die Zukunft so aus, dass Webcrawler intelligenter werden und sich mehr auf AJAX konzentrieren? –

@Shailesh - Ich werde dazu eine bestimmte vielleicht sagen. Sie sprechen ein wenig über die Herausforderungen des Crawlens von JavaScript- oder AJAX-fähigen Websites hier: http://searchengineland.com/google-io-new-advances-in-the-searchability-of-javascript-and-flash-but- is-it-enough-19881 –

Diese Antwort ist sehr veraltet. Der Googlebot kümmert sich jetzt definitiv um JavaScript: http://googlewebmastercentral.blogspot.com/2014/05/understanding-web-pages-better.html Ich bin mir über andere Crawler nicht sicher, aber ich vermute, dass sie wahrscheinlich bald dem Beispiel folgen werden sie haben es nicht schon getan. – Ajedi32

Die meisten von ihnen behandeln Javascript in keiner Weise. (Zumindest nicht alle Crawler der großen Suchmaschinen.)

Aus diesem Grund ist es immer noch wichtig, dass Ihre Website die Navigation ohne JavaScript fehlerfrei verarbeitet.

Quelle

2009-11-23 18:37:20

Leider ist der Google-Bot definitiv in JavaScript herumkrabbeln ... [link] (http: // stackoverflow .com/questions/5749348/jquery-verursachende-404-fehler-in-webmaster-tools-on-a-verzeichnis) – Sparky

Behandeln sie einfach nicht das Javascript, oder sehen sie die Website mit den