Ich habe etwa 10K hierarchische Strings wie folgt. Sie können bis zu 10-12 Hierarchieebenen (/) haben.Häufigkeitsverteilung von hierarchischen Strings
/a/b/c /a/b/d /e/b/c
Für jede Stufe i, würde Ich mag die Verteilung des Hierarchiepfades zum Level i berechnen. Also für den obigen Fall, es so sein würde:
level 0:
/a 0.67
/e 0.33
level 1:
/a/b 0.67
/e/b 0.33
level 2:
/a/b/c 0.33
/a/b/d 0.33
/e/b/c 0.33
Wie kann ich für 10K-Strings mit max von 10-12 Ebenen dies effizient zu tun. Dies muss ein sehr gewöhnlicher String-Manipulationsalgorithmus sein, aber ich vergesse den korrekten Namen. Vielen Dank.
Sie können eine beliebige Parsing-Bibliothek oder ein beliebiges Tool (z. B. sed, wenn dies in einer unverarbeiteten Textdatei oder in Bibliotheken für reguläre Ausdrücke enthalten ist) verwenden, um die gewünschten Daten zu extrahieren. – jwimberley