Ich habe ein unmarkiertes Dataset erstellt, das einige Spalten enthält. Die Werte in einer der Spalte sind Frankreich, Deutschland, Frankreich und Großbritannien.Filterung mit Scala und Apache Spark
Ich weiß, wie unter Verwendung von Code filtern und zählen.
val b =data.filter(_.contains("France")).count
Allerdings bin ich nicht sicher, wie man andere Werte als Frankreich zählt.
ich unten Code versucht, aber es mir falsches Ergebnis
val a =data.filter(x=>x!="France").count
PS geben: Meine Frage ein bisschen ähnlich wie Is there a way to filter a field not containing something in a spark dataframe using scala? ist, aber ich bin für einige einfachere Antwort suchen.
Woher wissen Sie, dass es nicht korrekt ist? Gibt es die Anzahl aller Datensätze zurück? –
Es gibt 5 statt 2 zurück – neoguy
Was ist 'data' oder' _' in diesem Fall? Sie müssen prüfen, ob eine bestimmte Spalte einer Zeile in einem Datenrahmen nicht gleich "Frankreich" ist. Sie sollten nicht prüfen, ob eine Zeile "Frankreich" enthält. –