Ich habe csv-Datei, die 2 Spalte ‚Complaint Details‘ enthält und ‚DispositionCode'.I wollen die complaintDetails in 8 verschiedenen Klassen von dispostionCode klassifizieren wie‚Tür von innen verriegelt‘ , 'Lieferantenfehler', 'Fehlender Schlüssel oder Sperre' ... Der Datensatz wird im Bild angezeigt. nicht entfernen Stoppwörter, NLP
Was wäre eine gute Methode zu klassifizieren und Genauigkeit zu finden.
zunächst mit Ich versuche Stoppwörter von den ComplaintDetails zu entfernen und dann naivebayes Klassifikator
Der Code verwenden ist, wie folgt:
import csv
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
your_list=[]
with open('H:/Project/rash.csv', 'r') as f:
reader = csv.reader(f)
your_list = list(reader)
print(your_list)
stop_words=set(stopwords.words("english"))
words= word_tokenize(your_list)
filteredSent=[]
for w in words:
if w not in stop_words:
filteredSent.append()
print(filteredSent)
Aber ich bin immer folgende Fehlermeldung: -
für die Übereinstimmung in self._lang_vars.period_context_re(). Finderiter (Text): TypeError: erwartete Zeichenfolge oder bytesähnliches Objekt
'word_tokenize' nimmt eine Zeichenfolge als Argument und keine Liste von Zeichenfolgen. Rufen Sie 'word_tokenize' für jedes Element in' your_list' auf, nicht in 'your_list' selbst. – bunji
Es ist eine Liste von Listen (CSV-Dateizeilen), so dass es doppelt entpackt werden muss. – alexis