Solr-Abfrage in einer PDF-Datei, gibt keine Hervorhebung Inhalt

Ich habe Solr 6.5.1 heute in meinem Debian-Server implementiert, aber ich habe Schwierigkeiten, den Inhalt von PDF-Text. Die Suche ist in Ordnung, weil das Dokument in Ordnung erscheint, wenn ich zum Beispiel meinen Namen "juan" abfrage. Allerdings erscheint das nicht bei jedem str-Ergebnis wie es soll.Solr-Abfrage in einer PDF-Datei, gibt keine Hervorhebung Inhalt

Dies ist das Beispiel Abfrage:

http://localhost:8983/solr/ex/select?q=juan&fl=title&wt=xml&hl=true&hl.snippets=20&hl.fl=content&hl.usePhraseHighlighter=true

Und das ist das Ergebnis:

<response> 
    <lst name="responseHeader"> 
     <int name="status">0</int> 
     <int name="QTime">1</int> 
     <lst name="params"> 
      <str name="hl.snippets">20</str> 
      <str name="q">juan</str> 
      <str name="hl">true</str> 
      <str name="fl">title</str> 
      <str name="hl.usePhraseHighlighter">true</str> 
      <str name="hl.fl">content</str> 
      <str name="wt">xml</str> 
     </lst> 
    </lst> 
    <result name="response" numFound="1" start="0"> 
     <doc> 
      <arr name="title"> 
       <str>CV_Juan_Jara_ultimo</str> 
      </arr> 
     </doc> 
    </result> 
    <lst name="highlighting"> 
     <lst name="/solr-6.5.1/mydocs/CV_Juan_Jara_ultimo.pdf"/> 
    </lst> 
</response>

Zusätzlich wird das Protokoll alle pdf Text zeigt , also nehme ich an, dass es richtig indiziert wurde (ich indizierte die pdf mit dem Befehl: bin/post -c ex meindocs/CV_Juan_Jara_ultimo.pdf).

Ich habe den „Inhalt“ Feld auf das Schema, Locke mit:

curl -X POST -H 'Content-type:application/json' --data-binary '{ 
    "add-field" : { 
    "name":"text", 
    "type":"text_general", 
    "indexed":"true", 
    "stored":"false", 
    "multiValued":"true" 
    } 
}' localhost:8983/solr/ex/schema

Wissen Sie, was falsch sein könnte?

Alles, was ich tun möchte, ist ein Thema in meinem pdf suchen und bekommen dann alle Ergebnisse wie folgt hervorgehoben:

http://www.codewrecks.com/blog/index.php/2013/05/27/hilight-matched-text-inside-documents-indexed-with-solr-plus-tika/

Quelle

2017-05-11 Juan Jara

Es ist eine sehr häufige und einfache Fehler:

„gespeichert ":" "false" sollte "gespeichert" werden: "true" für das Feld "content".

Momentan benötigen alle Textmarker das zu speichernde Feld [1].

[1] https://cwiki.apache.org/confluence/display/solr/Highlighting

Quelle

2017-05-11 16:05:21

Vielen Dank für Ihre schnelle Antwort. Ich habe gespeichert, aber immer noch nichts. Allerdings habe ich festgestellt, dass, wenn ich den Parameter "hl.method = unified" hinzufüge, die Antworthervorhebung das Feld enthält, aber leer. –

GELöST:

curl -X POST -H 'Content-type:application/json' --data-binary '{ 
"replace-field" : { 
"name":"_text_", 
"type":"text_general", 
"indexed":"true", 
"stored":"true", 
"multiValued":"true" 
} 
}' http://localhost:8983/solr/ex/schema

Dies liegt daran, das _text_ Feld kommt mit: die Lösung, die schließlich für mich gearbeitet, das _text_ Feld im Schema mit diesem curl Befehl zu ersetzen war "gespeichert": "false" standardmäßig.

HINWEIS: Speichern Sie alle Dateien wieder auf Ihr Kerngeschäft zu indizieren, wenn Sie es vor diesem Schema Feld tun ersetzen

Quelle

2017-05-12 00:33:21

Solr-Abfrage in einer PDF-Datei, gibt keine Hervorhebung Inhalt

Antwort

Verwandte Themen