Ich betreibe eine Website, die verschiedene Daten im Diagramm/Tabellenformat für Menschen zum Lesen bietet. Kürzlich habe ich festgestellt, dass die Anfragen an die Website, die von Google Docs stammen, zugenommen haben. Betrachtet man die IPs und den User Agent, scheint es von Google-Servern zu stammen - example IP lookup here.Block Website Scrapping von Google Docs
Die Anzahl der Treffer liegt im Bereich von 2.500 bis 10.000 Anfragen pro Tag.
Ich nehme an, dass jemand ein oder mehrere Google Tabellen erstellt hat, die Daten von meiner Website scrappen (möglicherweise unter Verwendung der IMPORTHTML-Funktion oder ähnlichem). Ich würde es vorziehen, dass dies nicht passiert ist (weil ich nicht wissen kann, ob die Daten richtig zugeordnet werden).
Gibt es eine bevorzugte Möglichkeit, diesen Datenverkehr zu blockieren, den Google unterstützt/genehmigt?
Ich würde lieber nicht basierend auf IP-Adressen blockieren, da das Blockieren von Google-Servern sich falsch anfühlt und möglicherweise zu zukünftigen Problemen oder IPs führen könnte. Im Moment blockiere ich (den Status 403 zurücksendend) basierend auf dem User Agent, der GoogleDocs
oder docs.google.com
enthält.
Verkehr meist aus 66.249.89.221 und 66.249.89.223 derzeit kommen, immer mit dem User-Agent Mozilla/5.0 (compatible; GoogleDocs; apps-spreadsheets; http://docs.google.com)
Als sekundäre Frage: Gibt es eine Möglichkeit, das Dokument oder seinen Kontoinhaber zu verfolgen? Ich habe Zugriff auf die URLs, auf die sie zugreifen, aber ansonsten kann kaum etwas weitergehen, da die Anfragen anscheinend über die Google Docs-Server übertragen werden (kein Referrer, Cookies oder andere ähnliche Daten in den HTTP-Protokollen).
Vielen Dank.