heritrix

1Hitze

1Antwort

Ich arbeite derzeit an einem Webarchivierungsprojekt. Grundsätzlich versuchen wir, eine Sammlung von Websites zu archivieren (unter Verwendung von heritrix crawler) und Zugriff auf die archivierten In

0Hitze

2Antwort

Heritrix 3.2.x, wie kann ich Inhalte aus Warc-Dateien lesen?

Mit Heritrix 3.2.x hatte ich eine Website gecrawlt, jetzt möchte ich den HTML-Inhalt aus den erstellten Warc-Dateien lesen. Kann jemand helfen ? Ich habe versucht, mit Python Warc-Tool und Java-basier