Ich versuche, DataFrame Inhalte zu filtern, mit Sparks 1.5 Methode dropDuplicates(). Verwenden Sie es mit vollständig mit Daten gefüllten Tabellen (ich meine keine leeren Zellen) gibt korrekte Ergebnisse, aber wenn meine CSV-Quelle leere Zellen enthält (Ich werde Ihnen Quelldatei zur Verfügung stellen) - Spark throw ArrayIndexOutOfBoundsException. Was mache ich falsch? Ich habe das Lernprogramm zu Spark SQL und DataFrames für Version 1.6.2 gelesen. Es beschreibt die DataFrame-Operationen nicht im Detail. Ich lese auch das Buch "Learning Spark. Blitzschnelle Big Data Analysis.", Aber es ist für Spark 1.5 geschrieben und Operationen, die ich brauche, sind dort nicht beschrieben. Ich bin froh, Erklärung entweder Link zum Handbuch zu erhalten. Danke.Apache Spark SQL-Kontext dropDuplicates
0
A
Antwort
0
Die Sende-Liste anstelle von Objekt [] ergibt sich als Erstellungszeile, die 1 Spalte mit einer Liste enthält. Das habe ich falsch gemacht.
Verwandte Themen
- 1. Apache Spark vs Apache Storm
- 2. dropDuplicates in SparkR
- 3. Apache Spark-Build-Fehler
- 4. Fallklassengleichheit in Apache Spark
- 5. Bluemix Apache Spark Metrics
- 6. Apache Spark RDD-Workflow
- 7. Apache Spark App-Workflow
- 8. Zugriffskontrolle für Apache spark
- 9. Datenverteilung in Apache Spark
- 10. Apache Spark-Implementierung
- 11. Apache Spark-Fehler
- 12. Apache Drill vs Spark
- 13. Apache Spark-ALS Empfehlungen nähern
- 14. Java-Anforderungen in Apache Spark
- 15. Apache Spark - Wie langsam Aufgaben
- 16. Filter in Apache Spark nicht
- 17. Apache Spark Stderr und Stdout
- 18. Windows: Apache Spark History Serverkonfiguration
- 19. Apache Spark GraphX verbundene Komponenten
- 20. Apache Spark - MLlib - Matrix Multiplikation
- 21. Matrix Multiplikation in Apache Spark
- 22. Apache Spark: distinct funktioniert nicht?
- 23. Lambda-Architektur mit Apache Spark
- 24. Apache Spark-merge nach updateStateByKey()
- 25. Apache Spark - datediff für Datenrahmen?
- 26. Apache Spark auf EC2 "Killed"
- 27. Apache Spark-Master-Lauf fehlgeschlagen
- 28. Apache Phoenix vs Hive-Spark
- 29. Apache Spark TFIDF mit Python
- 30. Apache Spark: Netzwerkfehler zwischen Executoren
Was erwarten Sie sonst noch? Sie deklarieren eine Anzahl von Feldern, wenn sie nicht übereinstimmen, erhalten Sie eine Ausnahme. Dies ist das erwartete Verhalten. Filtern Sie einfach fehlerhafte Daten aus. – zero323
Was meinst du es nicht? Ich habe die Spalte "Nachname". Ich erwarte, dass Spark Zeilen, die Duplikate sind, gemäß dieser Spalte, wie in JavaDoc geschrieben, filtert. BTW, hier ist meine [CSV-Datei] (http://pastebin.com/NgE6NU8A) –