num_of_words = (doc_title,num) #number of words in a document
lines = (doc_title,word,num_of_occurrences) #number of occurrences of a specific word in a document
produzieren Als ich lines.join genannt (num_of_words), erwartete ich, wie etwas zu bekommen:() in pyspark kommen nicht die erwarteten Ergebnisse
(doc_title,(word,num_of_occurrences,num))
aber ich habe statt:
(doc_title,(word,num))
und num_of_occurrences wurde weggelassen. Was habe ich hier falsch gemacht? Wie soll ich diesen beiden RDDs beitreten, um das Ergebnis zu bekommen, das ich erwarte?
Was ist ein reproduzierbares Beispiel? –