Wir möchten die Inhaltslänge der Crawlerseiten als Metadaten in den Dokumenten speichern. Ich weiß, wir könnten http.store.headers = true setzen, aber ich traue den http-headern des Servers nicht. SoSpeichern von Inhaltslänge als Feldwert (in Metadaten von indizierten Dokumenten)
wir geändert FetchedBolt
ProtocolResponse # getContent() zu schreiben. Länge
als Wert Metadaten (zusätzlich zu der "bytes_fetched" metrisch).
Gibt es eine Möglichkeit, diesen Wert zu erhalten, ohne den Code zu ändern? (Wir könnten eine zusätzliche Schraube zwischen Fetch und Parse hinzufügen, hoffentlich gibt es eine einfachere Lösung.)
Fein :-) https://github.com/DigitalPebble/storm-crawler/pull/524 –