Ich möchte einen Suchdienst für eine bestimmte Sache erstellen. Die Daten sind dort frei verfügbar, über kostenlose klassifizierte Dienste und eine Vielzahl anderer Sites.Gibt es irgendwelche Bausteine für eine Suchmaschine, die andere Seiten scrappen werden?
Gibt es irgendwelche Bausteine, z.B. Open-Source-Crawler, die ich anpassen würde - anstatt von Grund auf neu zu erstellen, die ich verwenden kann?
Haben Sie Ratschläge zum Aufbau eines solchen Produkts? Nicht nur technische, sondern auch private/rechtliche Dinge, die ich berücksichtigen muss.
z. muss ich "Kredit geben", wo die Ergebnisse herkommen und einen Link zum Original anbringen - wenn ich sie von vielen Orten bekomme?
Edit: Übrigens benutze ich GWT mit JS für das Front-End, haben sich nicht für die Sprache für das Back-End entschieden. Entweder PHP oder Python. Gedanken?
Also ich denke, die Idee ist, dass ich einen "screen-scraper" erstellen und den HTML-Code analysieren und die nützlichen Informationen herausnehmen und dann in eine db ablegen würde? Ist das der allgemeine Prozess? – marcamillion
Für mich war es generisch genug ... die einzige Einschränkung, die ich sehe, ist, dass es weder JavaScript noch Flash-Engine gibt, um den Webbrowser vollständig zu simulieren. Sie können jedoch js mit spidermonkey binding hinzufügen - das habe ich nie gebraucht. – liori