Importieren von Dateien mit Solr Cell/Tika vermischt Metadatenfelder mit Inhalt

Ich indiziere einige Dateien mit Solr (Version 6.6.0) und verwende den ExtractingRequestHandler-Ansatz, um mit Dingen wie PDF-Dateien umzugehen. Dies funktioniert meistens gut, da die Datei indiziert und durchsuchbar ist. Aber es gibt eine seltsame Eigenart, die ich nicht verstehe und die nicht wünschenswert ist.Importieren von Dateien mit Solr Cell/Tika vermischt Metadatenfelder mit Inhalt

Hier ist das Problem: Wenn ich eine PDF-Datei auf diese Weise indiziere, wird das Feld "Inhalt" mit einer Reihe von Metadaten gefüllt, die mit dem eigentlichen Inhalt vermischt sind. Hier ist ein Beispiel dafür, was ich bekommen, nachdem sie mit Solr verschifft einer der Probe PDF-Dateien indizieren:

"content":[" \n \n date 2008-11-13T13:35:51Z \n pdf:PDFVersion 1.3 \n xmp:CreatorTool Microsoft Word \n stream_content_type application/pdf \n Keywords solr, word, pdf \n access_permission:modify_annotations true \n access_permission:can_print_degraded true \n subject solr word \n AAPL:Keywords solr, word, pdf \n dc:creator Grant Ingersoll \n dcterms:created 2008-11-13T13:35:51Z \n Last-Modified 2008-11-13T13:35:51Z \n dcterms:modified 2008-11-13T13:35:51Z \n dc:format application/pdf; version=1.3 \n Last-Save-Date 2008-11-13T13:35:51Z \n access_permission:fill_in_form true \n meta:save-date 2008-11-13T13:35:51Z \n pdf:encrypted false \n dc:title solr-word \n modified 2008-11-13T13:35:51Z \n cp:subject solr word \n Content-Type application/pdf \n stream_size 21052 \n X-Parsed-By org.apache.tika.parser.DefaultParser \n X-Parsed-By org.apache.tika.parser.pdf.PDFParser \n creator Grant Ingersoll \n meta:author Grant Ingersoll \n dc:subject solr, word, pdf \n meta:creation-date 2008-11-13T13:35:51Z \n created Thu Nov 13 13:35:51 UTC 2008 \n access_permission:extract_for_accessibility true \n access_permission:assemble_document true \n xmpTPg:NPages 1 \n Creation-Date 2008-11-13T13:35:51Z \n resourceName /opt/fogcutter/solr-6.6.0/example/exampledocs/solr-word.pdf \n access_permission:extract_content true \n access_permission:can_print true \n meta:keyword solr, word, pdf \n Author Grant Ingersoll \n producer Mac OS X 10.5.5 Quartz PDFContext \n access_permission:can_modify true \n solr-word \n \n page \n This is a test of PDF and Word extraction in Solr, it is only a test. Do not panic. \n \n \n "],

Alles, was ich erwarten (und wollen) in diesem Bereich zu sehen, das Bit

This is a test of PDF and Word extraction in Solr, it is only a test. Do not panic.

ist.

Gibt es eine Einstellung, die ich drehen muss, die das steuert, oder ist das nur das Standardverhalten, oder was?

FWIW, meine schema.xml hat keine copyField-Elemente aktiviert, und ich verwende die ClassicIndexSchemaFactory in meiner solrconfig.xml-Datei.

Bearbeiten: sieht aus wie ich sehe das gleiche grundlegende Problem als this solr bug. Dennoch, wenn jemand zusätzliche Einblicke zu teilen hat, wird es sehr geschätzt.

Quelle

2017-12-21 mindcrime

Ich habe die gleiche Frage angeregt. finially löste ich es dies in solrconfig.xml durch Zugabe

<str name="fmap.meta">ignored_</str> 
<str name="uprefix">ignored_</str>

, die alle Metadaten und anderen Bereichen nicht übereinstimmen ignored_ machen (nicht gespeichert indexiert)

Quelle

2018-02-12 07:23:23

Importieren von Dateien mit Solr Cell/Tika vermischt Metadatenfelder mit Inhalt

Antwort

Verwandte Themen