Verwenden von Schindeln und Stoppwörtern mit Elasticsearch und Lucene 4.4

Im Index, den ich erstelle, möchte ich eine Abfrage ausführen und dann (unter Verwendung von Facetten) die Schindeln dieser Abfrage zurückgeben. Hier ist der Analysator ich auf den Text bin mit:Verwenden von Schindeln und Stoppwörtern mit Elasticsearch und Lucene 4.4

{ 
    "settings": { 
    "analysis": { 
     "analyzer": { 
     "shingleAnalyzer": { 
      "tokenizer": "standard", 
      "filter": [ 
      "standard", 
      "lowercase", 
      "custom_stop", 
      "custom_shingle", 
      "custom_stemmer" 
      ] 
     } 
     }, 
     "filter": { 
     "custom_stemmer" : { 
      "type": "stemmer", 
      "name": "english" 
     }, 
     "custom_stop": { 
      "type": "stop", 
      "stopwords": "_english_" 
     }, 
     "custom_shingle": { 
      "type": "shingle", 
      "min_shingle_size": "2", 
      "max_shingle_size": "3" 
     } 
     } 
    } 
    } 
}

Das Hauptproblem ist, dass mit Lucene 4.4, stoppen Filter nicht mehr unterstützen die enable_position_increments Parameter Schindeln zu beseitigen, die Stoppwörter enthalten. Stattdessen würde ich Ergebnisse erhalten wie ..

„rot und gelb“

"terms": [ 
    { 
     "term": "red", 
     "count": 43 
    }, 
    { 
     "term": "red _", 
     "count": 43 
    }, 
    { 
     "term": "red _ yellow", 
     "count": 43 
    }, 
    { 
     "term": "_ yellow", 
     "count": 42 
    }, 
    { 
     "term": "yellow", 
     "count": 42 
    } 
]

Natürlich ist diese STARK skews die Anzahl der zurückgegebenen Schindeln. Gibt es einen Weg nach Lucene 4.4, dies ohne Nachbearbeitung der Ergebnisse zu bewerkstelligen?

Quelle

2014-12-10 ev0lution37

Haben Sie eine Lösung für dieses Problem finden? – paweloque

doppelte Frage: http://stackoverflow.com/questions/22609100/elasticsearch-shingles-with-stop-words-elimination – paweloque

Wahrscheinlich nicht die optimale Lösung, aber am stumpfesten wäre es, einen weiteren Filter zu Ihrem Analysator hinzuzufügen, um "_" Füller-Tokens zu löschen. Im Beispiel unten rief ich es "kill_fillers":

"shingleAnalyzer": { 
     "tokenizer": "standard", 
     "filter": [ 
     "standard", 
     "lowercase", 
     "custom_stop", 
     "custom_shingle", 
     "custom_stemmer", 
     "kill_fillers" 
     ], 
     ...

Add "kill_fillers" Filter in der Liste der Filter:

"filters":{ 
... 
    "kill_fillers": { 
    "type": "pattern_replace", 
    "pattern": ".*_.*", 
    "replace": "", 
    }, 
... 
}

Quelle

2015-06-05 05:34:34 Curious

im nicht sicher, ob das hilft, aber in elastischer Definition von Schindeln, Sie können den Parameter filler_token verwenden, der standardmäßig _ ist. setzen Sie sich auf, zum Beispiel eine leere Zeichenkette:

$indexParams['body']['settings']['analysis']['filter']['shingle-filter']['filler_token'] = "";

https://www.elastic.co/guide/en/elasticsearch/reference/1.7/analysis-shingle-tokenfilter.html

Quelle

2015-11-02 09:26:16 ulkas

Verwenden von Schindeln und Stoppwörtern mit Elasticsearch und Lucene 4.4

Antwort

Verwandte Themen