Ich arbeite derzeit an einem Webarchivierungsprojekt. Grundsätzlich versuchen wir, eine Sammlung von Websites zu archivieren (unter Verwendung von heritrix crawler) und Zugriff auf die archivierten In
Mit Heritrix 3.2.x hatte ich eine Website gecrawlt, jetzt möchte ich den HTML-Inhalt aus den erstellten Warc-Dateien lesen. Kann jemand helfen ? Ich habe versucht, mit Python Warc-Tool und Java-basier