Ich habe im Internet jede Menge Dokumentation darüber gesehen, wie es mit dem Python NLTK einfach ist, Bigramme von Wörtern zu berechnen.NLTK macht es leicht, Bigramme von Wörtern zu berechnen. Was ist mit Briefen?
Was ist mit Buchstaben?
Was ich tun möchte, ist ein Wörterbuch einstecken und mir die relativen Häufigkeiten der verschiedenen Buchstabenpaare sagen.
Schließlich möchte ich eine Art Markov-Prozess machen, um wahrscheinlich aussehende (aber falsche) Wörter zu erzeugen. Hier
Was können Sie tun, indem Sie die Zeichenfolge von Wörtern nehmen, sondern haben Ihre tokenizer tokenize mit Schreiben statt durch Wort und führen Sie dann Ihr Bigramm-Modell auf diesem Brief-Token-Set. – jdotjdot