2017-12-28 12 views
1

Wir möchten die Inhaltslänge der Crawlerseiten als Metadaten in den Dokumenten speichern. Ich weiß, wir könnten http.store.headers = true setzen, aber ich traue den http-headern des Servers nicht. SoSpeichern von Inhaltslänge als Feldwert (in Metadaten von indizierten Dokumenten)

wir geändert FetchedBolt

ProtocolResponse # getContent() zu schreiben. Länge

als Wert Metadaten (zusätzlich zu der "bytes_fetched" metrisch).

Gibt es eine Möglichkeit, diesen Wert zu erhalten, ohne den Code zu ändern? (Wir könnten eine zusätzliche Schraube zwischen Fetch und Parse hinzufügen, hoffentlich gibt es eine einfachere Lösung.)

Antwort

1

Dies könnte auf der Protokollebene getan werden, aber wahrscheinlich einfacher, es in der FetcherBolt zu tun. Würde es Ihnen etwas ausmachen, Ihren Code beizutragen und eine PR zu eröffnen? Danke

+1

Fein :-) https://github.com/DigitalPebble/storm-crawler/pull/524 –

Verwandte Themen