2016-10-24 6 views
2

Mein xidel Befehl ist folgend:XPath-Ausdruck gibt leere Ausgabe

xidel "https://www.iec-iab.be/nl/contactgegevens/c360afae-29a4-dd11-96ed-005056bd424d" -e '//div[@class="consulentdetail"]' 

Dies sollte alle Daten in dem divs mit Klasse extrahiert consulentdetail Nichts Besonderes Ich dachte, aber es wird nicht alles drucken.

Kann mir jemand helfen, meinen Fehler zu finden?

// EDIT: Wenn ich den gleichen Ausdruck in Firefox verwenden, findet es die gewünschten Tags

+0

Was findet '// div'? Wenn das nichts findet, ist das kein Problem mit dem XPath-Ausdruck. – Tomalak

+0

Es findet tatsächlich nichts. Aber 'join (// div," ")' gibt eine Menge Text aus. – Fuzzyma

+0

Neugierig, aus irgendeinem Grund bekomme ich Ergebnisse für '// * [@ class =" consulentdetail "]' – Tomalak

Antwort

1

Die Website, die Sie offensichtlich eine Verbindung herstellen, um den User-Agent-String überprüft und verschiedene Seiten liefert, nach dem User-Agent-String wird es geschickt.

Wenn Sie xidel anweisen, eine User-Agent-Zeichenfolge zu senden, die sich als z. Firefox unter Windows 10, Ihre Abfrage beginnt zu arbeiten:

> ./xidel --silent --user-agent="Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0" "http://www.iec-iab.be/nl/contactgegevens/c360afae-29a4-dd11-96ed-005056bd424d" -e '//div[@class="consulentdetail"]' 
Lidnummer11484 2 N 73 
TitelAccountant, Belastingconsulent 
TaalNederlands 
Accountant sinds4/04/2005 
Belastingconsulent sinds4/04/2005 
AdresStationsstraat 2419550 HERZELE 
Telefoon+32 (53) 41.97.02 
Fax+32 (53) 41.97.03 
AdresStationsstraat 2419550 HERZELE 
Telefoon+32 (53) 41.97.02 
Fax+32 (53) 41.97.03 
GSM+32 (474) 29.00.67 
Websitehttp://abbeloosschinkels.be 
E-mail 

<!-- 
document.write("<a href=mailto:");document.write(decrypt(unescCtrlCh("5yÿÃ^à(pñ_!13!­[îøû!13!5ãév¦Ãçj|°W"),"Iate1milrve%ster"));document.write(">");document.write(decrypt(unescCtrlCh("5yÿÃ^à(pñ_!13!­[îøû!13!5ãév¦Ãçj|°W"),"Iate1milrve%ster"));document.write("</a>"); 
--> 

Als Faustregel gilt, wenn Web Scraping tun und seltsame Ergebnisse zu erzielen:

  1. Überprüfen Sie die Seite in einem Browser mit Javascript deaktiviert.
  2. Senden Sie eine User Agent-Zeichenfolge, die einen Webbrowser simuliert.