Ich habe eine RDD von Strings (alle in Kleinbuchstaben) und ich möchte mit regulären Ausdruck alle Wörter beginnend mit "kann" finden oder finden. Wie kann ich das in Python machen?Wie findet man alle Wörter, die mit my_str beginnen, in einer RDD von Strings mit pyspark und regex?
Als Beispiel für eine Eingabe wie
rdd = sc.parallelize(['canada','canpar','beauty','can'])
Ich möchte eine Ausgabe haben wie
['canada','canpar','can']
die eine RDD ist.
Sammeln Ich verstehe nicht, warum ich einen negativen Punkt für meine Frage. Könntest du erklären, was damit nicht stimmt? – Elm662
Was hast du bisher versucht? – eliasah