Ich versuche, meine MultinomialNB arbeiten zu lassen. Ich verwende den CountVectorizer auf meinem Trainings- und Testset und natürlich gibt es in beiden Sätzen unterschiedliche Wörter. Also ich sehe, warum der FehlerCountVectorizer MultinomialNB ValueError: Dimension nicht übereinstimmen
auftritt, aber ich weiß nicht, wie man es beheben kann. Ich habe versucht, CountVectorizer().transform
statt CountVectorizer().fit_transform
wie in einem anderen Beitrag vorgeschlagen wurde (SciPy and scikit-learn - ValueError: Dimension mismatch), aber das gibt mir nur
NotFittedError: CountVectorizer - Vocabulary wasn't fitted.
wie kann ich CountVectorizer richtig benutzen?
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cross_validation import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
import sklearn.feature_extraction
df = data
y = df["meal_parent_category"]
X = df['name_cleaned']
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)
X_train = CountVectorizer().fit_transform(X_train)
X_test = CountVectorizer().fit_transform(X_test)
algo = MultinomialNB()
algo.fit(X_train,y_train)
y = algo.predict(X_test)
print(classification_report(y_test,y_pred))
Sie verwendet haben könnte 'X_test = vectorizer_train.transform (X_test)' , anstatt einen neuen zu definieren. –
Oh, ich See das. Vielen Dank :) –