Meine csv-Dateien haben Header in der ersten Zeile. Wenn Sie sie in ein Schwein laden, entsteht bei nachfolgenden Funktionen (wie SUM) ein Chaos. Ab heute wende ich zunächst einen Filter auf die geladenen Daten die Zeilen enthalten, die Header zu entfernen: denkenHadoop Pig - Entfernen von csv-Header
affaires = load 'affaires.csv' using PigStorage(',') as (NU_AFFA:chararray, date:chararray) ;
affaires = filter affaires by date matches '../../..';
ich es ein bisschen dumm, wie ein Verfahren ist, und ich frage mich, entweder gibt es eine Möglichkeit Schwein zu sagen, Die erste Zeile des CSV wird nicht geladen, wie ein "as_header" boolescher Parameter für die Ladefunktion. Ich sehe es nicht auf dem Dokument. Was wäre eine gute Praxis? Wie gehst du normalerweise damit um?