Also arbeite ich an einer Site, die eine ziemlich spezifische globale Suchfunktion hat, die GSS nutzt, die, wie viele von euch bereits wissen, im April weggeht. Ich muss die Site crawlen und XML an Cloudsearch senden, aber ich bin irgendwie verwirrt, wie das geht und ich habe nicht viel Material zum Aufbau einer globalen Site-Suche mit AWS Cloudsearch gefunden, nachdem ich das Internet nach einem Browser durchforstet habe einige Tage. Bis jetzt plane ich, die Seite mit Apache Nutch zu crawlen, aber ich würde wirklich etwas Input schätzen. Danke im Voraus!Ersetze Google Site Search durch AWS Cloudsearch
Antwort
Sind Sie auf unseren Blog gestoßen? Index the web with AWS CloudSearchIndex the web with StormCrawler (revisited). Ich habe beschrieben, wie Sie Nutch und StormCrawler zum Indexieren auf AWS Cloudsearch verwenden.
Wenn Sie möchten, dass die Suche gehostet wird, empfehle ich stattdessen Elasticsearch und Elastic Cloud. Ich fand Cloudsearch langsam, umständlich und teuer und es gibt auch mehr Ressourcen für Elasticsearch für StormCrawler und Apache Nutch.
Ich habe deinen ersten Artikel gelesen, der Nutch erwähnt. Ich schätze den Elasticsearch-Vorschlag sehr. Momentan arbeite ich an einer Website und versuche, eine Alternative für die Google Site Search zu finden. Glauben Sie, dass die Elastic Cloud ein würdiger Ersatz wäre? Es ist scheiße, aber es scheint, als ob Google in diesem speziellen Markt eine riesige Lücke gelassen hätte. Danke noch einmal! –
@EthanStepanian Sie sind willkommen. Elastic Cloud wird nicht mit dem Crawlen selbst helfen, aber kombiniert mit StormCrawler wäre es ein guter Ansatz. Alternativ gibt es gehostete Lösungen basierend auf Apache SOLR und Sie könnten einen anderen Crawler wie Nutch verwenden. –
- 1. Google Site Search Suchtaste glyphicon
- 2. Alle Google Site Search-Alternativen?
- 3. AWS CloudSearch Daten exportieren/herunterladen
- 4. benutzerdefinierte Suche in aws cloudsearch
- 5. AWS Cloudsearch doc Upload-URL
- 6. Vermeide die Google Site Search-Indexierung bestimmter Teile der Seite
- 7. Ersetze Text durch Zeilenumbrüche
- 8. Ersetze preg_replace durch preg_replace_callback
- 9. AMP Google Search Console Validierung
- 10. Google Site Collapsible Liste
- 11. Holen Sie sich den vorherigen Cursor auf AWS Cloudsearch
- 12. Abrufen aller Literalwerte aus einem Indexfeld in AWS CloudSearch
- 13. Einfache Site Search mit PHP und MySQL
- 14. IBM WebSphere Solr Search-Absturz-Site
- 15. Google Like Search Mechanismus
- 16. Google Search API Backend
- 17. Google Places Nearby Search
- 18. Amazon CloudSearch-Filterabfrage im Wertebereich
- 19. Ersetze eine href durch einen js Funktionsaufruf
- 20. GTK + Ersetze gdk_draw_pixbuf durch Kairo
- 21. Ersetze Zeichenkette durch NEWLINK PHPSstorm
- 22. Ersetze numerische Zeichen durch Indexierung
- 23. Ersetze Zeichenkette durch Komma getrennt
- 24. Custom Search API aufrufen Google über Python
- 25. Google SEO Verwenden der Search Console
- 26. Google Custom Search API - Suchergebnisse
- 27. Google Datastore - Search Optimization Technique
- 28. Tel.-Nr ist Google Search
- 29. Google Search API - Anzahl gefunden
- 30. Cloudsearch Startdatum und jetzt
hast du http://docs.aws.amazon.com/cloudsearch/latest/developerguide/what-is-cloudsearch.html gelesen? –
@RicardoC Ich habe in den letzten paar Tagen gelesen, aber die Docs sprechen meines Wissens nicht über den Einsatz eines Crawlers. –
Amazon CloudSearch ist kein Web-Crawler. –