Angenommen, ich habe zwei Datenrahmen, df1 und df2. Sowohl df1 als auch df2 enthält die Spalte "id". Ich möchte df1, so dass die resultierende df filtern, df1prime, hatSpark: Wie filtert man Zeilen ohne Joins?
- nur die gefundenen ids in df1
- keine der alle in df2, gefunden ids
Ohne Joins zu verwenden. Wie kann ich das machen? Wird die Rückkehr zu RDDs anstelle von DFs helfen? Beide pyspark und scala Antworten sind willkommen.
Danke!
Edit: Ich mag die ganzen Zeilen halten von DF1
Was ist los mit Joins? siehe [hier] (http://stackoverflow.com/questions/42351669/how-to-filter-duplicate-records-having-multiple-key-in-spark-dataframe/) – mtoto
Nichts speziell falsch mit Joins, aber ich würde Suchen Sie nach einer günstigeren Operation – tohweizhong
ein Anti-Join wird die billigste Operation sein, wenn Sie Datenrahmen haben, wenn Sie mit 'rdd's arbeiten wollen, können Sie' cougroup() 'und dann filtern. – mtoto