2017-09-28 4 views
1

Ich begann mit Stanford-Deepdive vor einer Weile. Ich stehe derzeit vor dem Problem, dass deepdive einige der Zeilen, die er bekommt, als unvollständig interpretiert.Vorbereiten von Daten für (Stanford) Deepdive (ValueError)

Value Error: Expected 6 attributes, but found 5 in input row: 
<Row()> 

Ich hatte bereits dieses Problem mit einem anderen Datensatz. Bei dieser Menge gab es einige Zeilen, die "\ n" innerhalb des Textes enthielten. Also habe ich das entfernt und alles lief einwandfrei.

Für meine neue Datengruppe entferne ich "\ n", "\ t" und jedes Auftreten von mehreren Leerzeichen. Außerdem ersetze ich jeden leeren Textwert durch "EMPTY" - der Fehler weigert sich immer noch zu verschwinden.

Gibt es noch andere Formatierungsfehler oder Zeichen, um die ich mich kümmern muss? Ist meine Herangehensweise angemessen?

+0

Got it! In den ursprünglichen Daten gab es ein Feld, das nur ein einziges "\ t" enthielt. Bei der Vorbereitung der Daten wurde dieser zu einem singulären Raum. Und später wäre es kein gültiger Eintrag in Folge gewesen. – Junge

Antwort

0

Ich habe das Problem gefunden. Es wurde durch einen singulären TAB (\ t) Eintrag verursacht. Ich ersetzte das durch einen einzigen SPACE und am Ende wäre es kein gültiger Vorgänger mehr.

Also, wenn du etwas Text für Deepdive verwendest, wirst du etrys behandeln, die aus einem einzigen SPACE bestehen, als wären sie leer.

Verwandte Themen