2013-02-05 5 views
10

Wir haben eine URL Shortener betreiben, in der letzten Woche oder so haben wir begonnen, viele seltsame Anfragen für {normal url}/no_facebook_preview_picture.jpg von Facebook im Besitz IPs und dem User-Agent facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)Facebook Anfragen für {url} /no_facebook_preview_picture.jpg auf 404 Links

sehen

wenn ich einen normalen Link zu unserer Seite auf meiner Wand hinterlassen (gesetzt als Only Me so kann ich testen) ich den folgenden Eintrag in unserem Zugriffsprotokoll

66.220.152.6 - - [05/Feb/2013:16:31:36 +0000] "GET /44_U HTTP/1.1" 200 1314 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

jedoch erhalten, wenn ich einen Link, die 404 oder 410 zurückgibt (Spam Link nach der Erstellung entfernt) Ich bekomme diese

69.171.237.15 - - [05/Feb/2013:16:49:16 +0000] "GET /notexistURL HTTP/1.1" 404 1319 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

dann innerhalb einer Stunde oder so

173.252.110.113 - - [05/Feb/2013:17:15:15 +0000] "GET /notexistURL/no_facebook_preview_picture.jpg HTTP/1.1" 404 0 "-" "facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

whois dieser IP berichtet

NetName FACEBOOK-INC 
NetHandle NET-173-252-64-0-1 

So sie auf jeden Fall Facebook IPs sind.

Wir bekommen etwa 10-20 Anfragen wie diese pro Tag, alle identisch. Wir können nur 7 Tage Protokolldateien zurückbekommen, aber diese Anfragen sind vor 7 Tagen erfolgt.

Ich habe Links getestet, die eindeutig sind, also gibt es keine andere Möglichkeit, diesen Link zu finden. Ich persönlich benutze Facebook nicht so sehr und alle außer meinen Testlinks wurden von anderen Nutzern erstellt/gepostet, aber ich erkenne alle Anwendungen, die mit meinem Facebook-Account verknüpft sind, und es gibt nichts Ungewöhnliches, also glaube ich nicht, dass dies eine Drittpartei ist App (Ich kann eine Liste bei Bedarf bereitstellen, aber sie sind alle großen Namen Apps)

Während meiner Untersuchung der Protokolldateien scheint Facebook nicht einmal diese Anfragen intelligent zu erstellen, es ist nur blind die Zeichenfolge /no_facebook_preview_picture.jpg kleben am Ende von URLs, auch mit Abfragezeichenfolgen. Beispielsweise;

69.171.228.114 - - [05/Feb/2013:17:19:13 +0000] "GET /iAmNotARealURL1234777?ref=fb&cows_go=moo HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 
69.171.228.114 - - [05/Feb/2013:17:19:13 +0000] "GET /iamnotarealurl1234777 HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 
173.252.103.4 - - [05/Feb/2013:17:44:41 +0000] "GET /iAmNotARealURL1234777?ref=fb&cows_go=moo/no_facebook_preview_picture.jpg HTTP/1.1" 404 1118 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "-" 

Google scheint viele zufällige Ergebnisse, vor allem aus Link Urhebern angezeigt werden, aber ich konnte keine Informationen darüber, was diese Anforderungen sind finden.

Was sind diese Anfragen? Wofür braucht Facebook sie? Ist dies ein Fehler in unserer Anwendung oder können diese Anfragen ignoriert werden?

Update:

Einige Tage wir jetzt 2-3 hundert Treffer auf diese URLs bekommen

[[email protected] nginx]$ for DAYLOG in `find ./ | grep "dftbashort.log-"`; do COUNT=`cat $DAYLOG | grep no_facebook_preview_picture | wc -l`; echo "${DAYLOG} has ${COUNT} occurences"; done 
./dftbashort.log-20130201 has 0 occurences 
./dftbashort.log-20130130 has 2 occurences 
./dftbashort.log-20130129 has 2 occurences 
./dftbashort.log-20130128 has 2 occurences 
./dftbashort.log-20130202 has 378 occurences 
./dftbashort.log-20130207 has 222 occurences 
./dftbashort.log-20130205 has 257 occurences 
./dftbashort.log-20130209 has 178 occurences 
./dftbashort.log-20130131 has 2 occurences 
./dftbashort.log-20130203 has 266 occurences 
./dftbashort.log-20130206 has 667 occurences 
./dftbashort.log-20130204 has 12 occurences 
./dftbashort.log-20130127 has 4 occurences 
./dftbashort.log-20130208 has 260 occurences 

Wir bieten keine Open-Graph-Meta-Tags und die Seite hat keinen Inhalt anders als eine Meta/Javascript-Weiterleitung.

Antwort

2

Ich bin mir ziemlich sicher, dass dies der Anteil Schaber versucht, eine Vorschau Ihrer URL zu erstellen, führen Sie die URL durch Facebook's Debug Tool und Sie werden sehen, was Facebook sieht/sucht

Ich bin nicht sicher, was die /notexistURL/no_facebook_preview_picture.jpg Anfragen sind, vorausgesetzt, Sie haben nichts in Ihrem Code auf eine solche URL verweisen; Wenn ich raten müsste, würde ich sagen, dass es sich um eine Art Standard oder Fallback handelt, wenn keine Meta-Tags vorhanden sind. möglicherweise ein Bug - Ich bin ziemlich sicher, wenn Sie die richtigen Meta-Tags für Facebook enthalten, greift er diese und keine ungültigen Anfragen, mit dem zusätzlichen Vorteil der Anteile Ihrer URLs sieht besser auf Facebook.com und andere Seiten, die die gleichen Tags unterstützen

+0

Ja, ich verstehe Facebooks Crawler, es ist in Ordnung und wir bekommen viele Treffer davon, um die URLs zu erweitern, die wir gekürzt haben. Seit ich diesen Beitrag gemacht habe, bekommen wir heute hunderte von Anfragen pro Tag für diese 'no_facebook_preview_picture' URLs = (https://gist.github.com/samarudge/0c4a040c389c5b339278 – Smudge

0

Ich lief heute Morgen in dieselbe Sache und grub ein wenig. Sie können die Informationen unter this site verwenden, um Sie in die richtige Richtung zu führen. Scheint geholfen zu haben, dass meine Seite durch diese Fehler getötet wurde.

+0

Ihre" Antwort "besteht eigentlich nur aus einem externen Link. Bitte [siehe hier] (http://meta.stackexchange.com/questions/8231/are-answers-that-just-contain-links-elsewhere-really- good-answers) für einige Diskussionen zu diesen Arten von Antworten. .. – Lix

+0

Hallo, Websitebesitzer hier können den Leuten versichern, dass AgentPhoenix und ich nicht die gleiche Person sind.Mein Blogbeitrag bezieht sich speziell auf öffentliche SharePoint Sites. Aber einige der Screenshots können für Leute nützlich sein. Ich stimme @Igy (upvoted) - benutzen Sie das Debug-Tool von Facebook und es wird Ihnen sagen, was es sucht .. Gute Metadaten für Ihre öffentliche Website sind gut für alle Suchmaschinen, Suchagenten und Facebook. –

Verwandte Themen