Ich kroch eine Website. Es gibt eine Menge gemeinsamer Inhalte auf den Seiten, wie Dropdown-Menü, Navigation. Wie verhindert man, dass diese Inhalte indexiert werden?Blockieren Sie einen Teil der zu indizierenden Webseite
1
A
Antwort
0
Ich arbeite mit Nutch Codebase seit den letzten 2 Jahren und soweit ich gesehen habe, ist dies nicht möglich. Sobald der Inhalt in die nutch-Segmente gelangt, können Sie Teile wie das Dropdown-Menü, die Navigation usw. nicht mehr entfernen und behalten nur die benötigten Inhalte.
Wenn Sie oder jemand anders weiß, wie es geht (natürlich, ohne den Code zu ändern), teilen Sie das bitte mit.
1
Nicht sicher, wenn Sie dies noch tun müssen, aber nur für den Fall, dass Sie dies tun, können Sie blacklist_whitelist Plug-in versuchen, die bei https://issues.apache.org/jira/browse/NUTCH-585 gefunden werden kann.
Das Plug-In bietet Ihnen eine Liste der Elemente, die Sie blockieren oder zulassen möchten, aber nicht beides. zum Beispiel:
<property>
<name>parser.html.blacklist</name>
<value>noscript,div,#footer</value>
<description>
A comma-delimited list of css like tags to identify the elements which should
NOT be parsed. Use this to tell the HTML parser to ignore the given elements, e.g. site navigation.
It is allowed to only specify the element type (required), and optional its class name ('.')
or ID ('#'). More complex expressions will not be parsed.
Valid examples: div.header,span,p#test,div#main,ul,div.footercol
Invalid expressions: div#head#part1,#footer,.inner#post
Note that the elements and their children will be silently ignored by the parser,
so verify the indexed content with Luke to confirm results.
Use either 'parser.html.blacklist' or 'parser.html.whitelist', but not both of them at once. If so,
only the whitelist is used.
</description>
</property>
Verwandte Themen
- 1. Drucken bestimmter Teil der Webseite
- 2. Einen Teil der Webseite in der Webansicht anzeigen android
- 3. Holen Sie einen Teil einer Webseite mit JSOUP
- 4. Blockieren von HTML-Tags auf einer Webseite
- 5. Maskieren Sie einen Teil der Zeichenfolge
- 6. So entfernen Sie einen Teil der Zeichenfolge
- 7. Draggable funktioniert nicht mehr, nachdem ich einen Teil der Webseite mit AJAX geladen habe
- 8. Drucken eines (Teil) Webseite mit Javascript
- 9. So drucken Sie einen Teil einer Webseite (Kopfzeile) auf jeder gedruckten Seite in Chrome
- 10. Kann glGetError einen Thread blockieren?
- 11. Fügen Sie einen spezifischen Teil zu url mit .htaccess
- 12. Zwei Unterabfragen in Wählen Sie einen Teil der SQL-Abfrage
- 13. So verschieben Sie einen Teil der Datei an ihr Ende
- 14. Vergleichen Sie einen Teil der Zeichenfolge in String-Arrays
- 15. Laravel5.1: verstecken Sie einen Teil der Code Formularansicht
- 16. So erfassen Sie einen Teil eines Bildschirms
- 17. Markieren Sie einen Teil eines extjs4 Liniendiagramms
- 18. Teilen Sie einen Teil einer statischen Bibliothek
- 19. Parse nur einen Teil der xml
- 20. Wie erreicht man einen festen Header in der Webseite?
- 21. Erhalten Sie einen Teil eines char *
- 22. verbergen einen Teil der Taste unter textedit
- 23. xamarin.Forms nur einen Teil der Seite scrollen
- 24. Ändern nur einen Teil der Objekteigenschaften
- 25. Nur einen Teil der Tabellenzeile anzeigen
- 26. Machen Sie einen Teil von UIView sichtbar
- 27. Machen Sie einen Teil eines Bildes transparent
- 28. einen Teil Job
- 29. Zeichne einen Teil der Form mit EaselJS
- 30. In Ruby im Vergleich zu Smalltalk blockieren
Wer hat Ahnung? – thunder