Ich muss einige Daten aus dem Internet crawlen und einige Analysen durchführen. Zum Crawlen habe ich mich für Apache Nutch 2.3.1 entschieden und für die Analyse habe ich mich für Apache Spark entschieden. Jetzt Wie kann ich Nutch mit solr integrieren? Laut Nutch website habe ich erfahren, dass es Funken 1.4.1 unterstützen kann. Kann jemand bestätigen, dass meine Design-Entscheidung korrekt ist und zweitens habe ich kein Tutorial für die Integration dieser beiden gefunden. Kann Soneone GuideWie kann ich Apache Spark mit Apache Nutch verwenden
0
A
Antwort
1
heraus überprüfen Sparkler, wir arbeiten daran als Prototyp für Nutch auf Spark, http://github.com/USCDataScience/sparkler.git
Verwandte Themen
- 1. Apache Nutch vermeiden Refetching
- 2. Apache Nutch Kompatibilität mit Ubuntu
- 3. Apache Nutch - Probleme mit Pfaden
- 4. Wie bekomme ich Webgraph in Apache Nutch?
- 5. Apache Nutch und Solr Integration
- 6. Apache Spark vs Apache Storm
- 7. Wie Apache Nutch verschiedene Jobs parallel laufen
- 8. Sophisticated Seite Parsing mit Apache Nutch
- 9. Lambda-Architektur mit Apache Spark
- 10. Apache Spark-Implementierung
- 11. Apache Spark - Wie langsam Aufgaben
- 12. Apache Spark TFIDF mit Python
- 13. Fehler mit Apache Spark-Installations
- 14. Verwenden von reduceByKey in Apache Spark (Scala)
- 15. Apache Spark - schnellste Möglichkeit, SQL zu verwenden?
- 16. Apache Spark RDD-Workflow
- 17. Apache Nutch 2.1 verschiedene Batch-ID (null)
- 18. Apache Spark App-Workflow
- 19. Verwenden von Hadoop-Eingabeformaten in Apache Spark?
- 20. storm crawler - Technologie-Stack und Apache Nutch
- 21. Maximale Anzahl von Apache Nutch-Worker-Instanzen
- 22. Datenverteilung in Apache Spark
- 23. Fallklassengleichheit in Apache Spark
- 24. Apache Drill vs Spark
- 25. Apache Nutch indexiert RSS Feed nicht richtig
- 26. Apache Spark-Build-Fehler
- 27. Wie verhindert man das Crawlen externer Links mit Apache Nutch?
- 28. Bluemix Apache Spark Metrics
- 29. Apache Spark-Fehler
- 30. Wie benutze ich benutzerdefinierte Klassen mit Apache Spark (pyspark)?