heritrix

    1Hitze

    1Antwort

    Ich arbeite derzeit an einem Webarchivierungsprojekt. Grundsätzlich versuchen wir, eine Sammlung von Websites zu archivieren (unter Verwendung von heritrix crawler) und Zugriff auf die archivierten In

    0Hitze

    2Antwort

    Mit Heritrix 3.2.x hatte ich eine Website gecrawlt, jetzt möchte ich den HTML-Inhalt aus den erstellten Warc-Dateien lesen. Kann jemand helfen ? Ich habe versucht, mit Python Warc-Tool und Java-basier