Ich habe eine Eingabe mit einem Link und ich möchte diesen Link öffnen. Zum Beispiel habe ich eine HTML-Datei und möchte alle Links in der Datei finden und ihre Inhalte in einer Excel-Tabelle öffnen.Wie kann ich Links aus einer HTML-Datei mit Perl extrahieren?
Antwort
Das klingt wie ein Job für WWW::Mechanize. Es bietet eine ziemlich hohe Schnittstelle zum Abrufen und Studieren von Webseiten.
Sobald Sie die Dokumente gelesen haben, werden Sie eine gute Idee haben, wie Sie vorgehen.
WWW verwenden :: Mechanisieren; mein $ mech = WWW :: Mechanize-> neu (autocheck => 1); $ mech-> get ("http://www.google.com"); drucken $ mech-> Inhalt; LERNEN ERROR Fehler Geting http://www.google.com: Kann nicht an www.google.com:80 verbinden (connect: Unbekannter Fehler) Ich will wissen, was falsch ist. – User1611
google.com ist etwas Besonderes. Es mag keine Roboter. Es klingt jedoch wie ein Netzwerkproblem, wenn Sie nicht einmal verbinden können. –
Es klingt wie Sie das Linktractor-Skript von meinem HTML::SimpleLinkExtor-Modul wollen. Sie können außerdem Interesse an meinem webreaper Skript haben. Ich habe das vor langer, langer Zeit geschrieben, um etwas in der Nähe dieser Aufgabe zu tun. Ich empfehle es nicht wirklich, weil andere Tools jetzt viel besser sind, aber Sie können zumindest den Code anschauen.
CPAN und Google sind Ihre Freunde. :)
Mojo::UserAgent ist für diese ganz nett, auch:
use Mojo::UserAgent
print Mojo::UserAgent
->new
->get($ARGV[0])
->res
->dom->find("a")
->map(attr => "href")
->join("\n");
Es ist auch Web::Query:
#!/usr/bin/env perl
use 5.10.0;
use strict;
use warnings;
use Web::Query;
say for wq(shift)->find('a')->attr('href');
Oder von der cli:
$ perl -MWeb::Query -E'say for wq(shift)->find("a")->attr("href")' \
http://techblog.babyl.ca
Ich habe verwendet URI::Find für diese in der Vergangenheit (für, wenn die Datei nicht HTML ist).
- 1. Wie kann ich Abkürzungen aus einer Datei mit Perl extrahieren?
- 2. Wie kann ich Teilstrings aus einer Zeichenkette in Perl extrahieren?
- 3. Wie kann ich Daten aus HTML-Tabellen in Perl extrahieren?
- 4. Wie kann ich die Links von einer HTML-Seite extrahieren?
- 5. Wie kann ich Zeichensätze aus einer PDF-Datei mit Perl extrahieren?
- 6. Bilder/Texte aus PDF extrahieren mit Perl
- 7. Text aus Array extrahieren - perl
- 8. Wie kann ich Tabellendaten aus einer Textdatei in Perl extrahieren/parsen?
- 9. Wie kann ich eine variierende Anzahl von Zifferngruppen aus einer Perl-Zeichenfolge extrahieren?
- 10. Wie kann ich URL und Link-Text aus HTML in Perl extrahieren?
- 11. Wie kann ich ein komprimiertes Archiv in Perl extrahieren?
- 12. Wie kann ich bestimmte Zeitkomponenten aus einer UTCTime extrahieren?
- 13. Wie kopiere ich symbolische Links in Perl?
- 14. In Perl, wie kann ich E-Mail-Adressen aus Zeilen in Protokolldateien extrahieren?
- 15. Perl - Reihe von Zahlen mit Offsets aus Array extrahieren
- 16. Wie kann ich Frames aus Videos extrahieren (mit DirectShow)?
- 17. Wie kann ich HTML in einer Zeichenfolge mit Perl entfernen?
- 18. Kann ich den Kundennamen aus einer Seriennummer extrahieren?
- 19. Wie kann ich Webformulare mit Perl ausfüllen?
- 20. Extrahieren von Spalten aus Textdatei mit Powershell
- 21. Perl, extrahieren spezifische Spalten
- 22. Wie extrahiert man IP-Adressen aus einer Textdatei mit Perl?
- 23. Kann ich Links zu LinkExtractor manuell hinzufügen?
- 24. wie Formatierungsteil aus einer Zeichenfolge zu extrahieren
- 25. HTML Treebuilder XPath zum Extrahieren von Links
- 26. Wie kann ich Perl-Quellcode automatisch aufräumen?
- 27. Rubin Extrahieren Links von html
- 28. Wie kann ich Blockkommentare mit Perl entfernen?
- 29. Wie kann ich mit Perl 6 beginnen?
- 30. Extrahieren der XML-Links von einer Webseite mit Jsoup
Warum oh warum muss jeder deiner Posts so formatiert sein? Warum? – innaM
Fragen Sie, wie Sie eine Liste von Links aus einer HTML-Datei erhalten? Oder fragst du, wie man den Links folgt? Oder fragen Sie, wie Sie etwas in eine Excel-Tabelle bekommen? – innaM
Die Art, wie ich es lese, möchte er Daten von Seiten, die von einer bestimmten Seite verknüpft sind, schaben und die Ergebnisse in Excel-Dokumente einfügen. –