Ich habe mir selbst einen Web-Crawler mit simplehtmldom geschrieben und habe den Crawl-Prozess ziemlich gut funktioniert. Sie durchsucht die Startseite, fügt alle Links in eine Datenbanktabelle ein, legt einen Sitzungszeiger fest und Meta aktualisiert die Seite, um sie auf die nächste Seite zu übertragen. Das geht weiter, bis es keine Links mehr gibtSchreiben eines PHP-Web-Crawlers mit Cron
Das funktioniert gut, aber offensichtlich ist die Crawl-Zeit für größere Websites ziemlich langweilig. Ich wollte jedoch die Dinge etwas beschleunigen und möglicherweise einen Cron-Job machen.
Gibt es Ideen, wie Sie es so schnell und effizient wie möglich machen können, anstatt die Speichergrenze/Ausführungszeit höher einzustellen?
Suche SO oder Google für einen PHP-Profiler. Sie können genau bestimmen, was alles verlangsamt. Von dort können Sie eine spezifischere Frage wie 'Wie beschleunige ich 'file_get_contents()'' stellen. –
Ich werde dies auf Websites verwenden, die ich/mein Unternehmen erstellt, nur um nach Deadlinks zu suchen, und überprüfen alle Links haben einen anständigen Anker + Titel, stellen sicher, dass alle Seiten einen Titel/h1 Tag haben, usw. – Horse