Web Scraping mit Java

Ich bin nicht in der Lage, eine gute Web Scraping Java-basierte API zu finden. Die Seite, die ich scrappen muss, stellt auch keine API bereit; Ich möchte über alle Webseiten iterieren mit einigen pageID und extrahiere die HTML-Titel/andere Sachen in ihren DOM-Bäumen.Web Scraping mit Java

Gibt es andere Möglichkeiten als das Scraping von Webseiten?

Dank

Quelle

2010-07-08 NoneType

den Titel Extrahierung ist nicht schwer, und haben Sie viele Möglichkeiten, hier auf Stack-Überlauf für das Wort „Java HTML-Parser“. Einer von ihnen ist Jsoup.

Sie können die Seite mit DOM navigieren, wenn Sie die Seitenstruktur kennen, http://jsoup.org/cookbook/extracting-data/dom-navigation

Es ist eine gute Bibliothek sehen und ich habe es in meiner letzten Projekte verwendet.

Quelle

2010-07-08 09:44:11

Danke, es ist eine nette Bibliothek ohne Abhängigkeiten, also ist es ziemlich leicht. Außerdem ist es kopflos, so dass es keinen Browser benötigt (ich hatte Probleme mit ** Selenium ** beim Öffnen von Chrome und ich konnte ** HtmlUnit ** überhaupt nicht verwenden). ** Selen ** muss realistischer sein, aber diese Bibliothek kann in den meisten Scraping-Fällen den Zweck erfüllen und es ist wirklich einfach einzurichten: füge die Abhängigkeit hinzu und du bist gut zu gehen. –

Ausgezeichnete Bibliothek in der Tat. Einfache Einrichtung und leistungsstarke Regex-Unterstützung. doc.select ("li [id^= cosid_]"). Cool. – EMM

Ich habe kürzlich mein Web-Scraping-Framework geöffnet, das nicht nur das Parsen der Dokumente mit Jsoup und HtmlUnit ermöglicht, sondern auch die Parallelisierung für Sie übernimmt und bei Bedarf einen großen Pool von Proxy-Servern verwalten kann: https://github.com/subes/invesdwin-webproxy – subes

Betrachten Sie einen HTML-Parser wie TagSoup, HTMLCleaner oder NekoHTML.

Quelle

2010-07-08 09:45:47 Mikos

Ihre beste Wette ist Selen Web-Treiber zu verwenden, da es

visuelles Feedback an den Kodierer Stellt (Ihr Schaben in Aktion sehen, sehen, wo er anhält)
genaue und konsistente, da es direkt steuert die Browser, den Sie verwenden.
Langsam. Es trifft nicht auf Webseiten wie HtmlUnit, aber manchmal möchte man nicht zu schnell schlagen.

Htmlunit ist schnell, aber ist schrecklich bei der Handhabung von Javascript und AJAX.

Quelle

2010-09-23 19:45:12 KJW

Htmlunit verwendet werden können, Screen Scraping zu tun, es unterstützt Seiten aufrufen, Füllen & Einreichung Formen. Ich habe das in meinem Projekt verwendet. Es ist eine gute Java-Bibliothek für Web-Scraping. read here for more

Quelle

2011-07-21 12:22:16 Beschi

Mechanisieren für Java würde eine gute Passform dafür sein, und wie Wadjy Essam erwähnt, verwendet JSoup für die HMLT. mechanize ist ein gestufter HTTP/HTML-Client, der Navigation, Formulareinreichungen und Seitenabstreichen unterstützt.

http://gistlabs.com/software/mechanize-for-java/ (und die GitHub hier https://github.com/GistLabs/mechanize)

Quelle

2012-09-17 21:31:21 user1374041

könnten Sie versuchen, ui4j oder cdp4j Bibliothek für Web-Scraping. ui4j benötigt Java 8 und verwendet JavaFx WebKit Browser und cdp4j benötigt Chrome.

Quelle

2014-11-11 15:40:42 ozhan

Mithilfe von Web-Scraper können Sie den nützlichen Inhalt von der Webseite extrahieren und in ein beliebiges Format konvertieren.

WebScrap ws= new WebScrap(); 
//set your extracted website url 
ws.setUrl("http://dasnicdev.github.io/webscrap4j/"); 
//start scrap session 
ws.startWebScrap();

Jetzt Ihre Web-Verschrottung Sitzungsbeginn und bereit, Daten in Java verschrotten oder zu extrahieren webscrap4j library verwenden.

Für Titel:

System.out.println("-------------------Title-----------------------------"); 
System.out.println(ws.getSingleHTMLTagData("title"));

Für Tagline:

System.out.println("-------------------Tagline-----------------------------"); 
System.out.println(ws.getSingleHTMLScriptData("<h2 id='project_tagline'>", "</h2>"));

für alle Anker-Tag:

System.out.println("-------------------All anchor tag-----------------------------"); 
    al=ws.getImageTagData("a", "href"); 
    for(String adata: al) 
    { 
    System.out.println(adata); 
    }

Für Bilddaten:

System.out.println("-------------------Image data-----------------------------"); 
    System.out.println(ws.getImageTagData("img", "src")); 
    System.out.println(ws.getImageTagData("img", "alt"));

Für Ul-Li Daten:

System.out.println("-------------------Ul-Li Data-----------------------------"); 
    al=ws.getSingleHTMLScriptData("<ul>", "</ul>","<li>","</li>"); 
    for(String str:al) 
    { 
    System.out.println(str); 
    }

Für die Prüfung vollständigen Quellcode dieser tutorial.

Quelle

2015-06-02 08:37:46 GeekOnJava

Es gibt auch Jaunt Java Web Scraping & JSON Querying - http://jaunt-api.com

Quelle

2017-09-19 14:47:50 Slavus

Wenn Sie kratzen großer Menge Seiten oder Daten zu automatisieren, dann könnte man Gotz ETL versuchen.

Es ist vollständig modellgesteuert wie ein echtes ETL-Tool. Datenstruktur, Task-Workflow und zu scrapende Seiten werden mit einer Reihe von XML-Definitionsdateien definiert, und es ist keine Codierung erforderlich. Abfrage kann entweder mit Selektoren mit JSoup oder XPath mit HtmlUnit geschrieben werden.

Quelle

2018-01-23 16:46:03 Maithilish

Vor 7 Jahren, 6 Monaten gefragt. – Eritrean

Web Scraping mit Java

Antwort

Verwandte Themen