2017-11-01 2 views
1

Ich möchte den gesamten Text auf einer bestimmten Webseite extrahieren.Extrahieren Sie Text der Website mit Selenium und Python

In Javascript sieht der Code wie folgt aus:

var webPage = require('webpage'); 
var page = webPage.create(); 

page.open('http://phantomjs.org', function (status) { 
    console.log('Stripped down page text:\n' + page.plainText); 
    phantom.exit(); 
}); 

Wie kann ich page.plainText in Python laufen?

Dank

+0

Was die Selen-Code wird Ihnen bis jetzt versucht haben? –

Antwort

1

Wenn Sie mit Selen tun wollen, dass Sie das „top“ Element wählen haben und nach dem Aufruf von getText().

Zum Beispiel in Python:

driver = webdriver.PhantomJS(executable_path=r'pathTo/phantomjs') 
driver.get("https://en.wikipedia.org/wiki/Selenium_(software)") 
el=driver.find_element_by_tag_name("body") 
print(el.text) 
driver.close() 
0

diesen Code Versuchen:

text = driver.find_element_by_tag_name("body").get_attribute("innerText") 
Verwandte Themen