Ich muss eine vertikale Suchmaschine als Teil der Website entwickeln. Die Daten für die Suchmaschine stammen von Websites bestimmter Kategorien. Ich denke, dafür brauche ich einen Crawler, der mehrere (einige hundert) Websites (in einer bestimmten Geschäftskategorie) durchsucht und Inhalte und URLs von Produkten und Services extrahiert. Andere Arten von Seiten können irrelevant sein. Die meisten Seiten sind winzig oder klein (höchstens ein paar hundert Seiten). Die Produkte haben 10 bis 30 Attribute.Entwicklung eines Crawlers und Scraper für eine vertikale Suchmaschine
Irgendwelche Ideen, wie man einen solchen Crawler und Extraktor schreibt. Ich habe ein paar Crawler und Content-Extractors mit den üblichen Ruby-Bibliotheken geschrieben, aber keine vollwertige Suchmaschine. Ich denke, Crawler wacht von Zeit zu Zeit auf und lädt die Seiten von Webseiten herunter. Übliches höfliches Verhalten wie das Überprüfen von Robots-Ausschlussregeln wird natürlich befolgt. Der Inhalts-Extraktor kann die Datenbank nach dem Lesen der Seiten aktualisieren. Wie synchronisiere ich Crawler und Extraktor? Wie eng sollen sie integriert werden?
Werden die Attribute von allen Standorten am selben Ort gespeichert? Zum Beispiel haben Sie mehr als 30 Spalten in einer Datenbanktabelle. – BenMaddox