2009-06-09 7 views
14

Ich bin für eine Java-Implementierung des Generalized Suffixbaum (GST) mit folgenden Merkmalen suchen:Generalized Suffixbaum Java Implementation

Nach der Erstellung des GST von etwa 1000 Strings würde Ich mag herausfinden, wie viele Diese 1000 Strings enthalten eine andere Zeichenfolge 's'.

Die Suche muss schnell ruhig sein, da ich die Suche auf etwa 100'000 Kandidatenzeichenketten mit einer durchschnittlichen Länge 10.

+0

Hallo, ich frage mich, könntest du mir sagen welche Seelenverwendung du am Ende benutzt hast, ich habe das gleiche Problem !!! – Julia

+0

siehe hier: http://stackoverflow.com/questions/9452701/ukkonens-suffix-tree-algorithm-in-plain-english/9513423#9513423 – YAMM

Antwort

4

Versuchen The Semantic Discovery Toolkit anwenden müssen. Es hat eine Implementierung auf Text/src/java/org/sd/text/radixtree

+0

Er, wissen Sie von Implementierungen (oder sogar Tutorials!) für Token Suffix Bäume? –

3

habe ich einen Suffix-Baum in Java Damit können Sie problemlos Ihre eigene Suchfunktionalität und andere passende Algorithmen hinzufügen. Mein Blogpost, Suffix Trees in Java, hat einen Überblick sowie Anweisungen für das Herunterladen der neuesten Version. Meine Java-Implementierung basiert auf Mark Nelsons Artikel.

-Update 2016-06-18

+0

Der Blogpost ist informativ, aber die Quelle ist derzeit nicht verfügbar (Aug'2015), da sie auf https://svn.globalmentor.com/java/trunk/globalmentor-core/ verweist, welches passwortgeschützt ist. – codeDr

+0

Ich bemühe mich, unser Repository von Subversion in Git zu konvertieren und es wieder öffentlich zu machen. Das sollte innerhalb einer oder zwei Wochen geschehen. Fühlen Sie sich frei, mich anzumelden, wenn es bis dahin nicht verfügbar ist. Prost. –

+0

Der Quellcode ist jetzt über Git und Maven Central verfügbar. Ich habe die obige Antwort mit dem neuen Standort aktualisiert. –