2012-03-28 4 views

Antwort

0

Ich arbeite mit Nutch Codebase seit den letzten 2 Jahren und soweit ich gesehen habe, ist dies nicht möglich. Sobald der Inhalt in die nutch-Segmente gelangt, können Sie Teile wie das Dropdown-Menü, die Navigation usw. nicht mehr entfernen und behalten nur die benötigten Inhalte.

Wenn Sie oder jemand anders weiß, wie es geht (natürlich, ohne den Code zu ändern), teilen Sie das bitte mit.

1

Nicht sicher, wenn Sie dies noch tun müssen, aber nur für den Fall, dass Sie dies tun, können Sie blacklist_whitelist Plug-in versuchen, die bei https://issues.apache.org/jira/browse/NUTCH-585 gefunden werden kann.

Das Plug-In bietet Ihnen eine Liste der Elemente, die Sie blockieren oder zulassen möchten, aber nicht beides. zum Beispiel:

<property> 
    <name>parser.html.blacklist</name> 
    <value>noscript,div,#footer</value> 
    <description> 
    A comma-delimited list of css like tags to identify the elements which should 
    NOT be parsed. Use this to tell the HTML parser to ignore the given elements, e.g. site navigation. 
    It is allowed to only specify the element type (required), and optional its class name ('.') 
    or ID ('#'). More complex expressions will not be parsed. 
    Valid examples: div.header,span,p#test,div#main,ul,div.footercol 
    Invalid expressions: div#head#part1,#footer,.inner#post 
    Note that the elements and their children will be silently ignored by the parser, 
    so verify the indexed content with Luke to confirm results. 
    Use either 'parser.html.blacklist' or 'parser.html.whitelist', but not both of them at once. If so, 
    only the whitelist is used. 
    </description> 
</property> 
Verwandte Themen