Ich versuche, Daten aus mehreren Seiten einer Website mit Inhalten zu extrahieren, die mit Javascript erstellt wurden. Also benutze ich PyQt4 zu und Schöne Suppe, um Seiten zu durchlaufen und einige Datenfelder zu extrahieren.Durchblättern von Seiten mit PyQt4 und Beautiful Soup
import sys
from bs4 import BeautifulSoup
from PyQt4.QtGui import QApplication
from PyQt4.QtCore import QUrl
from PyQt4.QtWebKit import QWebPage
class Client(QWebPage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.loadFinished.connect(self.on_page_load)
self.mainFrame().load(QUrl(url))
self.app.exec_()
def on_page_load(self):
self.app.quit()
products_titles = []
urls= ['url1', 'url2', 'url3']
for url in urls:
print "Parsing URL: " + url + '\n'
client_response = Client(url)
source = client_response.mainFrame().toHtml()
soup = BeautifulSoup(source, "html.parser")
print get_product_category(soup)
Aber wenn ich es zermalmt laufen und gibt diesen Fehler:
QObject::connect: Cannot connect (null)::configurationAdded(QNetworkConfiguration) to QNetworkConfigurationManager::configurationAdded(QNetworkConfiguration)
QObject::connect: Cannot connect (null)::configurationRemoved(QNetworkConfiguration) to QNetworkConfigurationManager::configurationRemoved(QNetworkConfiguration)
QObject::connect: Cannot connect (null)::configurationChanged(QNetworkConfiguration) to QNetworkConfigurationManager::configurationChanged(QNetworkConfiguration)
QObject::connect: Cannot connect (null)::onlineStateChanged(bool) to QNetworkConfigurationManager::onlineStateChanged(bool)
QObject::connect: Cannot connect (null)::configurationUpdateComplete() to QNetworkConfigurationManager::updateCompleted()
[1] 14809 segmentation fault python products.py
Ich weiß nicht, was ich bin ich falsch mache, bitte helfen Sie, wenn Sie wissen, was los ist.
Vielen Dank es funktioniert gut und viel schneller als meine Lösung !! – melhirech