2

Ich analysiere eine Datei, die auch UUID Typ enthält. Ich kann die Datei nicht analysieren und diesen Fehler erhalten.H2o Fehler beim Parsen einer Datei

DistributedException aus /127.0.0.1:54321: 'NewChunk Numeric hat Typ, aber die Vec ist vom Typ UUID', verursacht durch java.lang.AssertionError: NewChunk hat numerischen Typ, aber die Vec ist vom Typ UUID

Wer weiß, was das bedeutet?

+0

Geben Sie bitte ein Beispiel an, wie Sie es jetzt versuchen, und wenn möglich auch ein Muster der Daten. Es gibt mehrere Möglichkeiten, Daten in 'h2o' zu importieren. Aus welcher Quelle stammen Ihre Daten? – Mako212

+0

Ich verwende die Flow-UI. Die Daten stammen aus einer CSV-Datei. Ich habe die CSV-Datei hier geteilt. https://drive.google.com/open?id=0B9A7Nrdc-aQeTN0QnlpcWFROVE – kivk02

Antwort

0

Ich habe Ihre 160 MB-Datei lokal heruntergeladen, um zu testen, dass Ihre Daten falsch formatiert sind.

Der obige Fehler Sie nur sehen, weil die letzte Spalte im Dataset ist UUID so H2O stellen Sie sicher, Spaltentyp als UUID jedoch 206000 Reihen nach den letzten Spalten einstellen zeigt numerische Werte, die H2O verursachen Panik während numerischen Wert Einstellung als UUID.

Ich konnte bis zu 206000 Zeilen in H2O ohne jedes Problem laden, aber 207000 Zeilen gab mir Fehler, so dass Sie experimentieren können, welche Zeilen schlecht formatiert sind. Sie können den folgenden Befehl ausführen, um alle Zeilen von 206000 bis 207000 zu erhalten, und beim Laden dieser 1000 Zeilen sehen Sie das gleiche Problem.

Wenn Sie Ihre Daten nicht mit schlechter Formatierung auf Zeilenebene reparieren können, können Sie alle Spalten als Zeichenfolge speichern. Auf diese Weise wird H2O alle Daten als String aufnehmen und später können Sie die Daten analysieren, sauber säubern und dann ändern, um sie korrekt als enum, int oder UUID einzugeben. Keine gute Option, um zu versuchen, weil Ihre Daten bereits schlecht formatiert sind, aber auf diese Weise könnten Sie alle Daten in H2O laden.