Mithilfe von Web-Scraper können Sie den nützlichen Inhalt von der Webseite extrahieren und in ein beliebiges Format konvertieren.
WebScrap ws= new WebScrap();
//set your extracted website url
ws.setUrl("http://dasnicdev.github.io/webscrap4j/");
//start scrap session
ws.startWebScrap();
Jetzt Ihre Web-Verschrottung Sitzungsbeginn und bereit, Daten in Java verschrotten oder zu extrahieren webscrap4j library verwenden.
Für Titel:
System.out.println("-------------------Title-----------------------------");
System.out.println(ws.getSingleHTMLTagData("title"));
Für Tagline:
System.out.println("-------------------Tagline-----------------------------");
System.out.println(ws.getSingleHTMLScriptData("<h2 id='project_tagline'>", "</h2>"));
für alle Anker-Tag:
System.out.println("-------------------All anchor tag-----------------------------");
al=ws.getImageTagData("a", "href");
for(String adata: al)
{
System.out.println(adata);
}
Für Bilddaten:
System.out.println("-------------------Image data-----------------------------");
System.out.println(ws.getImageTagData("img", "src"));
System.out.println(ws.getImageTagData("img", "alt"));
Für Ul-Li Daten:
System.out.println("-------------------Ul-Li Data-----------------------------");
al=ws.getSingleHTMLScriptData("<ul>", "</ul>","<li>","</li>");
for(String str:al)
{
System.out.println(str);
}
Für die Prüfung vollständigen Quellcode dieser tutorial.
Danke, es ist eine nette Bibliothek ohne Abhängigkeiten, also ist es ziemlich leicht. Außerdem ist es kopflos, so dass es keinen Browser benötigt (ich hatte Probleme mit ** Selenium ** beim Öffnen von Chrome und ich konnte ** HtmlUnit ** überhaupt nicht verwenden). ** Selen ** muss realistischer sein, aber diese Bibliothek kann in den meisten Scraping-Fällen den Zweck erfüllen und es ist wirklich einfach einzurichten: füge die Abhängigkeit hinzu und du bist gut zu gehen. –
Ausgezeichnete Bibliothek in der Tat. Einfache Einrichtung und leistungsstarke Regex-Unterstützung. doc.select ("li [id^= cosid_]"). Cool. – EMM
Ich habe kürzlich mein Web-Scraping-Framework geöffnet, das nicht nur das Parsen der Dokumente mit Jsoup und HtmlUnit ermöglicht, sondern auch die Parallelisierung für Sie übernimmt und bei Bedarf einen großen Pool von Proxy-Servern verwalten kann: https://github.com/subes/invesdwin-webproxy – subes