Ich bin ziemlich neu zu funken, habe ich eine Aufgabe, Top hundert Wörter aus einer Reihe von Tweets für jedes Zeichen aus kleinen Alphabeten zu bekommen. zum BeispielSuche Top 100 Wörter für jedes Zeichen pyspark
a: (word1, count1), (word2, count2).. (word100, count100)
b: (word1, count1), (word2, count2).. (word100, count100)
.
.
z: (word1, count1), (word2, count2).. (word100, count100)
Dies ist mein Code:
words_mapped = (en_text.flatMap(lambda x: x.split())
.filter(lambda x: x[0] in valid_chars)
.map(lambda x: (x[0], x)))
Dieses ein Tupel mit Charakter und dem Wort, das ich habe diese Zeichen Gruppe, jetzt gibt und die Anzahl der jedes Wort in Werte finden und zeigen die top 100 Wörter mit ihrer Zählung.
Wie kann ich dies in pyspark übersetzen.
was meinst du mit „Charakter“ – Natecat
@ Natecat Ich habe die Frage, Charakter von kleinen Aphabets aktualisiert, siehe auch das Beispiel –