Ich möchte eine Website scrappen, um programmatisch alle externen Links innerhalb beliebiger Flash-Elemente auf der Seite zu sammeln. Ich würde auch gerne anderen Text sammeln, wenn möglich, aber die Links sind der wichtige Teil. Ist das möglich? Eine Freeware-Bibliothek/ein Service, um diese Aufgabe zu erfüllen, wäre vorzuziehen, aber wenn es keine gibt, wie kann ich die Aufgabe alleine erledigen? Ist es möglich, den Quellcode zu bekommen und daraus zu ziehen?Kann ich den Blitz schaben?
Antwort
Durch das Dekompilieren der Flash-Quelle können Sie den ActionScript-Teil der Flash-Datei sehen, der häufig Informationen wie Links enthält.
Ein freier Decompiler ist Flare. Es ist nur Befehlszeile und funktioniert gut. Es wird einige der Informationen in neueren Flash-Formaten nicht dekodieren (> CS3 denke ich). Es speichert alle AS in einer Datei.
Sothink SWF Decompiler ist ein anspruchsvoller kommerzielles Programm. Es wird gut mit jeder Flash-Datei funktionieren, die ich ausprobiert habe und die Ergebnisse sind sehr gründlich und gut organisiert. Es ist GUI-basiert und ich weiß nicht, ob es leicht zu automatisieren ist.
Mit Flare, da es ein Befehlszeilentool ist, könnte man einfach ein Skript schreiben, um die SWF zu erhalten, dekompilieren, grep für 'http: //' und die Ergebnisse protokollieren.
Als sehr grob ersten Schritt können Sie Google verwenden, um ein Text-Snippet aus dem SWF zu bekommen, da das SWF von Google indiziert wurde und Sie seine URL kennen. zB:
http://www.google.com/search?q=site%3Awww.michaelgraves.com%2Fmga.swf
Yanking „externe Links“ aus einem Blitz kann als so einfach sein, zum Beispiel:
curl -s http://hostname/path/to/file.swf | strings | grep http
Natürlich ist dies würde fehlschlagen, wenn der Autor den Versuch gemacht hat, um die URL auszublenden.
YMMV viel. Viel Glück!
Curls Ausgabe sieht nur aus wie ein Haufen zufälliger Zeichen, nichts so ko-herent wie http. Ich benutzte Curl www.michaelgraves.com/mga.swf -o test.txt. Verarbeiten Strings etwas in lesbaren Text? –
Das 'strings'-Programm zerrt, was möglicherweise lesbare Zeichenketten aus einem binären Datenstrom sein können. Das 'grep' zieht alle Zeichenfolgen heraus, die das Wort' http' enthalten. Sie können auch versuchen, die Befehlsoptionen für Zeichenfolgen zu ändern, um Ihnen eine nützlichere Ausgabe zu geben ('strings -10': nur Ausgabezeichenfolgen von mindestens 10 Zeichen). – MikeyB
Wenn die Datei also keine" http "-Zeichenfolge enthält, ist strings nicht werde es mir geben, oder? –
- 1. Wie kann ich diesen Tisch effizienter schaben?
- 2. Blitz Pfeil aber der Blitz in
- 3. Wie kann ich diese besondere jQuery-Seite mit Python schaben?
- 4. Kann AVCaptureDevice nicht mit einem Blitz verwenden
- 5. Web Schaben mit rvest
- 6. Zurücksetzen pausiert schaben, Scrapy
- 7. Fiddler und Blitz?
- 8. Blitz ++ Array in Struktur
- 9. Web Schaben Oracle (ATG) Commerce
- 10. Fastboot-Blitz system.img Fehler
- 11. CakePHP3 - Komponente Blitz nicht
- 12. Kamera Blitz funktioniert nicht
- 13. Ich habe einen Antrieb Blitz und ich mag überall
- 14. wie man den Blitz des Geräts ändert [: Nachricht] in Schienen
- 15. schaben Tabelle von der Website
- 16. Lautstärkepegel auf Knopf im Blitz
- 17. Die Kamera schaltet den Blitz für Kamera2 nicht ein
- 18. Android camera2 manuellen Blitz immer
- 19. Taschenlampe/Blitz auf iPhone einschalten
- 20. Blitz: automatisch/unendlich/horizontal Schieber
- 21. Wie macht man einen Punkt Blitz "Blitz" mit Perlin Noise oder anderen Algorithmus?
- 22. aktualisiert flashvars und lädt Blitz mit jQuery
- 23. Web Schaben Daten mit Html Agility Pack-
- 24. Blitz: dieser Code einstellen duplizierten Movieclip
- 25. zeige ladendes Symbol während der Blitz geladen wird - und verstecke es, wenn der Blitz startet
- 26. Schaben data> Haltestelle weißen Linie
- 27. schaben Urls aus einer wikipedia Tabelle
- 28. Kamerabild überbelichtet nach LED-Blitz aktiviert
- 29. mit PHP, wie kann ich alle Felder Namen schaben und in eine Textdatei ausgeben?
- 30. Python dryscrape schaben Seite mit Cookies
Flare funktioniert nicht mehr für Mac. –