2017-01-25 3 views
0

ich kommen, wie dies in pyspark Shell-Innen verwenden:verwirrend innere Verknüpfung in pyspark

tab_df=ori_df.join(ori_df,ori_df.columns,'inner') 

Da ich die gleiche Tabelle für innere Verknüpfung, sollte man erwarten, dass die tab_df.count() als ori_df.count() gleich sein sollte, aber die tab_df.count() gib mir 0!

Antwort

0

Verwendung dieser Befehl:

tab_df = ori_df.join(ori_df, ['column_name']) 

pyspark verwendet innere Verknüpfung von Standard

ich in meinem Computer versucht, zwei gleichen Tabellen zu verbinden und es funktioniert

Warum Sie zwei gleiche anschließen möchten, Tabellen sowieso?

+0

müssen nur überprüfen, ob zwei Tabellen in Bezug auf ihre Daten identisch sind, danke für Ihre Antwort – xiaoxin

Verwandte Themen