Funken: subtrahieren zwei Datenrahmen

In Spark-Version 1.2.0 ein subtract mit 2 SchemRDD s nur mit dem anderen Inhalt von der erstenFunken: subtrahieren zwei Datenrahmen

val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)

onlyNewData enthält die Zeilen in todaySchemRDD am Ende verwenden könnte, die existiert nicht in yesterdaySchemaRDD. Wie kann dies erreicht werden mit DataFrames in Spark Version 1.3.0?

Quelle

2015-04-09 Interfector

Nach den api docs, tun:

dataFrame1.except(dataFrame2)

wird einen neuen Datenrahmen zurückgeben Zeilen in dataFrame1 enthalten, aber nicht in dataframe2.

Quelle

2015-04-10 09:12:12

Was subtrahieren, wenn ich die Ausnahme durchführen müssen nicht auf die ganze Reihe, aber nur eine Spalte? Z.B. 'dataframe1' rows außer denen, bei denen der' primary_key' nicht in 'dataFrame2' erscheint? (sieht für DBs wie 'subtractByKey' aus, aber am besten für einen Datenrahmen. –

@KatyaHandler Sie können einen' LEFT JOIN' mit einem 'IS NULL' auf dem Schlüssel des verknüpften Datenrahmens verwenden. Das sql ist etwa so:' SELECT * FROM df1 LINKER JOIN df2 ON df1.id = df2.id WHERE df2.id IST NULL' – Interfector

@KatyaHandler: Ich suche auch nach der gleichen Lösung .. könntest du mir bitte sagen, wie du das mit DF erreicht hast, kannst du Bitte aktualisiere die Antwort – Shankar

In pyspark DOCS wäre es

df1.subtract(df2)

Quelle

2016-06-15 14:01:36 Teja

das ist die richtige Antwort von einigen Releases her 2.1.0 –

Hey @Teja Die Subtraktionsmethode scheint Groß- und Kleinschreibung zu beachten Ist es möglich, die Groß-/Kleinschreibung zu ignorieren, während –

abgezogen wird, beachten Sie, dass subtract() 'für den Datenrahmen von Python Spark verfügbar ist la Sparks Datenrahmen. – stackoverflowuser2010

Funken: subtrahieren zwei Datenrahmen

Antwort

Verwandte Themen