2017-03-02 5 views
1

Also arbeite ich an einer Site, die eine ziemlich spezifische globale Suchfunktion hat, die GSS nutzt, die, wie viele von euch bereits wissen, im April weggeht. Ich muss die Site crawlen und XML an Cloudsearch senden, aber ich bin irgendwie verwirrt, wie das geht und ich habe nicht viel Material zum Aufbau einer globalen Site-Suche mit AWS Cloudsearch gefunden, nachdem ich das Internet nach einem Browser durchforstet habe einige Tage. Bis jetzt plane ich, die Seite mit Apache Nutch zu crawlen, aber ich würde wirklich etwas Input schätzen. Danke im Voraus!Ersetze Google Site Search durch AWS Cloudsearch

+0

hast du http://docs.aws.amazon.com/cloudsearch/latest/developerguide/what-is-cloudsearch.html gelesen? –

+0

@RicardoC Ich habe in den letzten paar Tagen gelesen, aber die Docs sprechen meines Wissens nicht über den Einsatz eines Crawlers. –

+0

Amazon CloudSearch ist kein Web-Crawler. –

Antwort

1

Sind Sie auf unseren Blog gestoßen? Index the web with AWS CloudSearchIndex the web with StormCrawler (revisited). Ich habe beschrieben, wie Sie Nutch und StormCrawler zum Indexieren auf AWS Cloudsearch verwenden.

Wenn Sie möchten, dass die Suche gehostet wird, empfehle ich stattdessen Elasticsearch und Elastic Cloud. Ich fand Cloudsearch langsam, umständlich und teuer und es gibt auch mehr Ressourcen für Elasticsearch für StormCrawler und Apache Nutch.

+0

Ich habe deinen ersten Artikel gelesen, der Nutch erwähnt. Ich schätze den Elasticsearch-Vorschlag sehr. Momentan arbeite ich an einer Website und versuche, eine Alternative für die Google Site Search zu finden. Glauben Sie, dass die Elastic Cloud ein würdiger Ersatz wäre? Es ist scheiße, aber es scheint, als ob Google in diesem speziellen Markt eine riesige Lücke gelassen hätte. Danke noch einmal! –

+0

@EthanStepanian Sie sind willkommen. Elastic Cloud wird nicht mit dem Crawlen selbst helfen, aber kombiniert mit StormCrawler wäre es ein guter Ansatz. Alternativ gibt es gehostete Lösungen basierend auf Apache SOLR und Sie könnten einen anderen Crawler wie Nutch verwenden. –