Webseiten analysieren, um Inhalte zu extrahieren

-2

Ich möchte einen Crawler mit Java erstellen, der eine Webseite crawlt und bestimmte Inhalte der Seite extrahiert. Wie soll ich das machen? Ich bin neu und brauche Anleitung, um Crawler zu entwerfen.Webseiten analysieren, um Inhalte zu extrahieren

Zum Beispiel möchte ich auf den Inhalt zugreifen „Rot ist meine Lieblingsfarbe“ von einer Webseite, die so etwas wie unten eingebettet ist:

< div>Rot ist meine Lieblingsfarbe </div>

Quelle

2016-10-18 user2720919

.... einfach jede Seite holen und als Text speichern? Es tut mir so leid, deine Frage macht keinen Sinn. – theonlygusti

Ich meine eher, nur bestimmte Inhalte zu ziehen .... wie gewöhnliche Web-Crawler URLs von einer Quellwebseite mit dem href-Attribut aufnehmen. Ähnlich, ich bin daran interessiert, andere Inhalte wie den Inhalt eines Rezensenten zu ziehen. Macht Sinn?? – user2720919

Literaturhinweise

Statische Seiten:

java.net.URLConnection und java.net.HttpURLConnection
jsoup - HTML-Parser und Inhalt Manipulation Bibliothek

Wohlgemerkt, viele der Seiten Inhalt dynamisch mit JavaScript erstellen wird nach geladen. In einem solchen Fall hilft der Ansatz "statische Seite" nicht, Sie müssen nach Werkzeugen in der Kategorie "Web-Automatisierung" suchen.
Selenium ist ein solches Toolset. Sie können Ihrem Browser befehlen, Seiten mit einem gewöhnlichen Browser zu öffnen und durch diese zu navigieren. Möglicherweise können Sie sogar einen "kopflosen Browser" (keine Benutzeroberfläche) verwenden, indem Sie phantomjs verwenden.

Viel Glück, es gibt viel Lesen und Kodieren vor dir.

[Beispiele bearbeitet]

Diese Technik Web Schaben genannt wird - es mit Google verwenden für Beispiele. Die folgende angeboten werden als ein Beispiel der Ergebnisse in meiner Suche, biete ich keine Garantien oder Vermerke für sie

für „statische Webseite Verschrottung“ - hier ist an example using jsoup

Für „dynamische Seiten“ - hier ist ein example using Selenium

Quelle

2016-10-19 00:18:40

Danke ... der Link, den du geteilt hast, scheint nützlich zu sein, viele nützliche Methoden ... Ich werde sie ausprobieren. Ich fand heraus, dass das Ziehen bestimmter Inhalte von einer Webseite ziemlich üblich ist, wie das Ziehen von Rezensionskommentaren von TripAdvisor. Gibt es eine Probe? Ich finde keine ... es wird mir leicht fallen, wenigstens anzufangen. – user2720919

@ user2720919 "Gibt es eine Probe?" Ich habe meinen Beitrag mit einigen Beispielen aktualisiert, die ich im Internet gefunden habe - siehe gegen Ende der Antwort. "Danke ... der Link, den du geteilt hast, scheint nützlich zu sein, viele nützliche Methoden ..." normalerweise wird der Dank durch die Antwort ausgedrückt und * wenn deine Frage vollständig beantwortet ist *, akzeptiere die Antwort (schwebe einfach über die Nummer/Pfeile links in der oberen Seite der Antwort, ich bin sicher, du wirst die Idee bekommen) –

Webseiten analysieren, um Inhalte zu extrahieren

Antwort

Verwandte Themen