Ich habe eine Liste von 1M bis 10M Strings und ich möchte sehen, welche von ihnen in einem einzigen Dokument (sagen wir 1 Seite des Textes) gefunden werden können.Suche nach vielen Strings in einem einzigen Dokument
Ich weiß, ich kann Lucene (Solr/Elasticsearch) verwenden, um alle Dokumente zu finden, die eine Zeichenfolge enthalten. Aber das ist das Gegenteil.
Ich könnte einige Ad-hoc-Lösung basierend auf einem der String-Suchalgorithmen wie Aho-Corasic, versucht, etc. programmieren, aber ich nehme an, dass ich das Rad neu erfinden würde. Gibt es dafür eine Bibliothek/einen Rahmen?
(Ich bin gut mit den Saiten und die Dokumente in Worte getrennt werden, wenn es einen Unterschied macht)