Ich habe einen Fall spalten kann, wo ich Dateien mit Zeilen des FormatsNehmen Sie Leser, die durch zwei Arten von Separatoren
Field1,Field2,Field3,Field4,Field5,Field6#Field1,Field2,Field3
Während die eine Art und Weise zu lesen, dies zu achive wäre ein Rekord Leser wie KeyValueLineRecordReader
zu verwenden mit dem Separator #
. Aber ich muss den Schlüssel und Wert auf ,
in meinem UDF unter Verwendung String.split
teilen, die ich fühle, kann die Ausführung verlangsamen.
1. Gibt es Aufzeichnungsgeräte, die Formate dieses Typs bereitstellen? 2. Wenn es einen solchen Datensatzschreiber nicht gibt, was sind meine Alternativen zum effizienten Lesen einer solchen Zeile?
Eingangsdaten sind ~ 10 GB.
Meine Eingabedaten sind um 10GB. Während Split ist etwas, das ich gerade benutze, fühle ich, dass es rohe Kraft ist, damit umzugehen. (nichts, um es zu unterstützen eher eine Intuition). – Vishnu
Nun, Sie könnten einfach für eine traditionelle Schleife gehen, die jeden Char einzeln testet - hört sich jedoch langsamer an –