Ich habe Hadoop (2.x), Hbase und Nutch 2.3.1 erfolgreich konfiguriert. Ich habe auch einige Beispielseiten zum Testen gecrawlt. Jetzt muss ich das crawlen für bestimmte Sprache mit opensource Werkzeug cld2 fokussieren. Wenn das durchforstete Dokument diese spezifische Sprache nicht enthält, sollte dieses Dokument nicht (in Hbase) gespeichert und auch nicht an Solr indiziert werden. In Nutch WIKI ist zum Zeitpunkt des Abrufens kein Erweiterungspunkt angegeben. Gibt es eine andere Möglichkeit, die Arbeit zu erledigen?Apache Nutch 2.3.1 Erweiterungspunkt zum Abrufzeitpunkt
Antwort
Im Moment gibt es keinen Erweiterungspunkt in der Fetchers-Implementierung, die mit Nutch geliefert wird. Wenn Sie darüber nachdenken, müssen Sie das Dokument abrufen und analysieren (um die Sprache zu extrahieren) und dann können Sie Ihre eigene IndexingFilter
schreiben, um die Sprache des Dokuments zu überprüfen und entscheiden, ob Sie es indizieren wollen oder nicht.
Dies sollte nicht sehr schwierig sein, selbst zu schreiben. Auf der anderen Seite für Nutch 1.x haben wir bereits diese PR https://github.com/apache/nutch/pull/219, die leicht portiert werden kann, um auf 2.x zu arbeiten, und dann brauchen Sie nur den richtigen JEXL-Ausdruck.
Wir haben bereits ein language-identifier
Plugin, das mit Nutch 2.x geliefert wird. Sie könnten wahrscheinlich einen Blick darauf werfen, wie implementiert und fügen Sie Ihre eigene Integration mit Cld2 als ein anderes Plugin wahrscheinlich. Wenn Sie cld2 verwenden möchten, müssen Sie einen Parser (zusammen mit dem Indexer) schreiben, um die Sprache aus dem Inhalt zu erkennen.
- 1. Apache Nutch 2.3.1 Remote-Befehl fehlgeschlagen
- 2. Apache Nutch 2.3.1 Fehler beim Abrufen
- 3. Apache Nutch injizieren URLs
- 4. Solr 6 und Nutch 2.3.1 integration
- 5. Apache Nutch Kompatibilität mit Ubuntu
- 6. Nutch 2.3.1 und Solr 6 Fehler beim Indizieren
- 7. Wie kann ich Apache Spark mit Apache Nutch verwenden
- 8. Ungelöste Abhängigkeiten Fehler beim Versuch, Nutch Build 2.3.1
- 9. Sophisticated Seite Parsing mit Apache Nutch
- 10. Apache nutch (Regular expression)
- 11. Apache Nutch Neustart Crawl
- 12. Apache Nutch vermeiden Refetching
- 13. Web Crawling mit Apache Nutch
- 14. Apache Nutch - Probleme mit Pfaden
- 15. Apache Nutch und Solr Integration
- 16. Wie man Nutch 2.3.1 mit Hbase 1.2.6 kompiliert
- 17. Fehler: während Start Apache Nutch mit Mongodb
- 18. Apache nutch zum Index zu solr über REST
- 19. Apache Nutch fetch und updatedb Stufen
- 20. Wie bekomme ich Webgraph in Apache Nutch 2.x
- 21. storm crawler - Technologie-Stack und Apache Nutch
- 22. Apache Nutch indexiert RSS Feed nicht richtig
- 23. Apache Nutch 2.1 verschiedene Batch-ID (null)
- 24. Wie Apache Nutch verschiedene Jobs parallel laufen
- 25. Maximale Anzahl von Apache Nutch-Worker-Instanzen
- 26. Wie bekomme ich Webgraph in Apache Nutch?
- 27. apache nutch datei herunterladen nach taste klicken
- 28. Analysieren und speichern mit Apache Nutch
- 29. Apache Nutch schreiben crawled docs zu rabbitmq
- 30. Einstellung der Tiefe für Apache-Nutch Crawler
Danke Bruder. Ich habe Sprachfilter zur Indexzeit implementiert. Mein Problem ist, dass ich das Dokument, das keine Urdu-Sprache enthält, aus der Hbase-Tabelle entfernen muss (wo Rohut-Inhalt des Dokuments zum Zeitpunkt des Abrufs von Nutch gespeichert wird), nicht von Solr (wo indiziert) – Shafiq