2017-12-22 9 views
1

Ich bin neu in Python. Ich habe eine CSV-Datei, die Tweets gereinigt hat. Ich möchte eine Tasche mit Wörtern dieser Tweets erstellen. Ich habe den folgenden Code, aber es funktioniert nicht richtig.Wie erstellt man einen Beutel mit Wörtern aus der CSV-Datei in Python?

import pandas as pd 
from sklearn import svm 
from sklearn.feature_extraction.text import CountVectorizer 

data = pd.read_csv(open("Twidb11.csv"), sep=' ') 
count_vect = CountVectorizer() 
X_train_counts = count_vect.fit_transform(data.Text) 
count_vect.vocabulary_ 

Fehler:

.ParserError: Error tokenizing data. C error: Expected 19 fields in line 5, saw 22

+1

Mögliches Duplikat von [Python Pandas Error Tokening Daten] (https://stackoverflow.com/questions/18039057/python-pandas-error-tokenizing-data) –

+0

Es wäre nützlich zu klären * wo genau * in Ihrem Code der Fehler tritt auf ... – desertnaut

+0

Wenn ich den Code jetzt ausführe, bekomme ich diesen Fehler: 'DataFrame' Objekt hat kein Attribut 'Text' –

Antwort

0

Es dupliziert, denke ich. U kann die Antwort here sehen. Es gibt viele Antworten und Kommentare.

So kann, Lösung:

data = pd.read_csv('Twidb11.csv', error_bad_lines=False) 

Oder:

df = pandas.read_csv(fileName, sep='delimiter', header=None) 

„In dem obigen Code, sep definiert Ihre Trennzeichen und Header = None sagt Pandas, die die Quelldaten für keine Zeile hat headers/column titles. So heißt es in der Dokumentation: "Wenn die Datei keine Kopfzeile enthält, dann sollten Sie explizit header = None übergeben." In diesem Fall erstellt pandas für jedes Feld {0,1,2 ,. ..}. "

+0

Wenn ich den Code jetzt ausführen bekomme ich diesen Fehler: 'DataFrame' Objekt hat kein Attribut ' Text' –

Verwandte Themen