Mein Datensatz nach vielen programmatischen Bereinigung sieht so aus (zeigt Teildatensatz hier).Entfernen Sie aufeinanderfolgende Leerzeichen in RDD-Zeilen in Spark
ABCD A [email protected] 79
BGDA F [email protected] 89
Ich möchte diese in die für die weitere Funken folgende konvertieren Dataframe-Operationen
ABCD,A,[email protected],79
BGDA,F,[email protected],89
val reg = """/\s{2,}/"""
val cleanedRDD2 = cleanedRDD1.filter(x=> !reg.pattern.matcher(x).matches())
Aber das gibt nichts zurück. Wie finde ich leere Zeichenfolgen und ersetze sie durch ein Trennzeichen? Danke! rt
entfernen:
Um den Inhalt des RDD, nur
.map
verwenden zu ändern 'val reg = "" "\ s {2,}" ""' und Sie nicht 'verwenden können. matches() ', da es die vollständige Übereinstimmung der Zeichenfolge erfordert. Verwende 'find()'. –Vielleicht, was Sie wollen, ist viel einfacher, etwas wie https://ideone.com/T8OSIC. –
Danke Wiktor. Das hat geholfen! – user1384205