Ich möchte einen Crawler mit Java erstellen, der eine Webseite crawlt und bestimmte Inhalte der Seite extrahiert. Wie soll ich das machen? Ich bin neu und brauche Anleitung, um Crawler zu entwerfen.Webseiten analysieren, um Inhalte zu extrahieren
Zum Beispiel möchte ich auf den Inhalt zugreifen „Rot ist meine Lieblingsfarbe“ von einer Webseite, die so etwas wie unten eingebettet ist:
< div>Rot ist meine Lieblingsfarbe </div>
.... einfach jede Seite holen und als Text speichern? Es tut mir so leid, deine Frage macht keinen Sinn. – theonlygusti
Ich meine eher, nur bestimmte Inhalte zu ziehen .... wie gewöhnliche Web-Crawler URLs von einer Quellwebseite mit dem href-Attribut aufnehmen. Ähnlich, ich bin daran interessiert, andere Inhalte wie den Inhalt eines Rezensenten zu ziehen. Macht Sinn?? – user2720919