2012-03-27 4 views
2

Ich erbte vor kurzem eine ziemlich große Website mit einem gigantischen, katastrophalen Durcheinander von schlecht benannten und organisierten Bildern, die über mehrere Ordner verteilt waren und von mehreren Orten referenziert wurden. Ich versuche, einige der Assets der Site zu konsolidieren und ich muss wissen, welche der hunderten von Bildern tatsächlich verwendet werden. Einige von ihnen können in Bild-Tags ruhen, andere können als Hintergründe mit CSS gesetzt werden, und wieder andere können zur Laufzeit mit Javascript erstellt werden.Wie kann ich feststellen, welche Bilder in der Quelle einer sehr großen Website tatsächlich verwendet werden?

Weil die Bilder so zahlreich sind, und weil es keine erkennbare Namenskonvention gibt (zB img-asdfasd83mmd.png), und weil das bis zu meiner Ankunft bestehende Versionskontrollsystem darin bestand, vorhandene Dateien zu duplizieren und sich nur geringfügig zu ändern Die Namen der alten (dh, img-asdfasdfasdfasf.png, img-asdfasdfasdf2.png, img-asdfasdfasdf-version4-final.png), diese Aufgabe ist nicht so einfach wie eine schnelle visuelle Überprüfung.

Ich suche nach einer automatisierten Lösung, die die Quelle dieser Website scannt und bestimmt, welche Bilder verwendet werden und welche nicht. Alles, was eine Art von Lösung für die siteweite Umbenennung von Assets mit automatischen Referenzupdates bietet, wäre auch schön. Vielen Dank!

+0

Wir brauchen noch weitere Hintergrundinfos - auf welcher Plattform sind Sie, welches Framework wurde verwendet, um diese alte Website zu erstellen . Ich bin auch neugierig - was ist mit "automatischen Referenzupdates" gemeint? Vielen Dank – Coffee

Antwort

1

Aus der Unordnung, die Sie beschreiben, gehe ich davon aus, dass kein einziges konsistentes System verwendet wurde, um sie aus erster Hand zu erstellen. Selbst wenn es spezialisierte Lösungen gibt, basieren diese normalerweise auf der Authoring-Software sollte unterstützen und wahrscheinlich nicht viel Hilfe in Ihrem Fall. Ich fürchte auch, dass es keine einzige automatisierte Lösung für Sie geben wird, ich kann mir nur eine Handvoll halbautomatisierter Ansätze vorstellen.

  1. Sehr erster Schritt: Nehmen Sie ein Backup (Sie haben das schon getan, nicht wahr?).
  2. analysieren, was da ist (Hier ist, wo ich Ihre Frage bin zu sehen)

    • wenn Ihr Dateisystem unterstützt wird, scannen Sie das Dateisystem und archivieren die letzte access time aller Dateien in der Web-Server-Hierarchie. Es ist möglich, dass die Dateien, auf die zuletzt zur gleichen Zeit zugegriffen wurde (gelesen) wurde, Sicherungskopien von etwas anderem sind. Dies müssten Sie als erstes tun, da Ihre eigenen Erkundungen dazu neigen, diese Daten zu ändern.
    • Wenn diese Webseiten größtenteils statisch sind, können Sie möglicherweise viele dieser Bilder identifizieren, die mithilfe von wget oder einem anderen Crawler/Spider zum Crawlen und Spiegeln verwendet werden. Die resultierenden Bilder wären die prominentesten Ziele, um sich zu organisieren. Einer dieser automatisierten sitemap generator tools könnte auch in diesem Prozess hilfreich sein.
    • Einige Seiten und Bilder, die wget möglicherweise übersehen haben, konnten aus der webserver logs identifiziert werden - die Dateinamen auf einigen unixoiden os (Sie sind nicht interessiert, wer sie fragte, nur die Dateinamen, die sie bekommen haben), sortieren sie, uniq (filtere die Duplikate), und du bekommst mehr, was du nicht löschen kannst.
    • versuchen Sie die deduplicate Dateien. Suchen Sie nach Duplikaten von Dateien (z. B. mit einem MD5-Hash), und reduzieren Sie deren Verwendung auf eine einzige Instanz. In der geografischen Umgebung (Dateisystem-weise) können Sie auch Fast-Duples finden, z. B. alte Versionen, die durch geringfügige Dateinamenvariationen ausgeglichen werden.
  3. Plan, wenn Sie Unkraut wollen, oder die Seite neu

Alles in allem, je mehr Sie müssen auszusondern, desto mehr Zeit in dieses Projekt gehen.Zeichnen Sie eine Linie, wenn Sie eine Idee haben, was Sie vorhaben, und entscheiden Sie, ob es wirtschaftlicher wäre, die gesamte Website zu überarbeiten, indem Sie nur das Notwendige in eine übersichtliche Struktur migrieren.

0

Sie könnten Tools wie A1 Website Analyzer versuchen. Es würde Ihnen alle Bilder zeigen und von wo sie verlinkt und/oder verwendet werden. (Es würde jedoch nicht von verwaisten Bilddateien berichten, dh Bilder, die von nirgendwo verwendet oder verlinkt werden.)

Verwandte Themen