2017-03-03 9 views
0

Hintergrund: 2 von 3 unserer Zookeeper Maschinen gerissen, die mein SOLR System zu kollabieren verursacht. Ich fügte neue Zookeeper Maschinen hinzu und aktualisierte jede SOLR Maschinenkonfiguration mit der neuen Maschine Zookeeper.Solr Anzahl ist falsch

Danach startete ich die SOLR und verwendete Admin-Seite zur Abfrage *:*, die eine andere Nummer jedes Mal zurückgegeben, wenn ich den Pool abgefragt habe.

Also löschte ich alle Datensätze in SOLR Cloud und führte eine batch-job, um alle Daten wieder von Oracle zu SOLR zu füllen. (Alles sah gut aus).

Problem: Ich habe eine tägliche batchjob, die die SOLR mit DELTA(Inserts + Updates) von Oracle aktualisiert.

Seit dieser Instanz. Die Nummer in SOLR Pool stimmt nicht mit der DELTA(insert + update) überein. Zum Beispiel: obwohl 1000 Datensätze an einem Tag aktualisiert oder eingefügt wurden, unterscheiden sich die SOLR-Zählwerte um mehr als 10000.

Die von *:* zurückgegebenen Zahlen stimmen nicht überein. Wir haben versucht, die Datensätze mehrfach zu löschen. Die Dinge sehen gut aus, wenn wir den Datensatz zum ersten Mal nach dem Löschen einfügen, aber sobald die Aktualisierungen beginnen, stimmen die Zahlen nicht überein.

Es gibt keine doppelten Datensätze. und wenn ich nach einem bestimmten Datensatz abfrage, erhalten wir den korrekten Datensatz, aber Facettennummern sind auch falsch.

Ist die Indexdatei beschädigt?

+0

1. Wie viele Solr-Instanzen für den Cluster? 2. Wie viele Scherben? 3. Wie machen Sie die Indizierung? Durch SolrJ oder irgendetwas anderes? –

+0

25 Instanzen im Cluster, 3 Shards. Ich habe einen Spring Batch-Job, der die Datensätze liest und aktualisiert sie in 'SOLR' – user1324887

+0

hat zk den ordnungsgemäßen Status aller Instanzen verfolgen? –

Antwort

0

Versuchen Sie, Ihren Index zu optimieren. Ich hatte auch das gleiche Problem und die Optimierung des Index hat es behoben.

 curl http://hostname:8980/solr/<core>/update?optimize=true 

Einige weitere Informationen über optimize:

http://wiki.apache.org/solr/SolrPerformanceFactors#Optimization_Considerations

PS: Beachten Sie, dass ein optimize teuer ist. Sie sollten es nicht mehr als einmal täglich ausführen.

+0

Ich habe versucht, den Index zu optimieren. Das hat bis jetzt nichts geändert. – user1324887

+0

nur darauf wieder auf. festgestellt, dass es doppelte Dateien in unseren Shards mit unterschiedlichen '_version_' gibt. Ich habe die Solr-Abfragen mit 'distrib = false' auf 2 verschiedenen Knoten von 2 Shards ausgeführt und beide haben 2 Dokumente mit verschiedenen' _version_' zurückgegeben. irgendwelche Einsichten? – user1324887