Ich habe Situation, wo ich eine bestimmte Wörter unigram aus dem Textkörper entfernen muss, während Bi-Gramm dieses Wortes zusammen mit Unigrammen dieses Wortes beibehalten.Wie bestimmte Unigramm aus dem Textkörper entfernen, aber immer noch die Bi-Gramm dieses Wortes beibehalten?
Ich versuche, eine Textadressdaten (Spalte in einem Excel) zusammen mit einigen anderen numerischen Features zu einem Klassifizierungsalgorithmus zu übergeben. Ich muss die Textdaten berechnen und bestimmte Unigramme herausfiltern und sie an den Datenrahmen anhängen, damit der Klassifizierungsalgorithmus sie verstehen kann.
** sample data in Text Column**
TAJ MAHAL
TAJ MALABAR KOCHI
TAJ MALABAR KOCHI
TAJ RESIDENCY TVM
LEELA PALACE
PALACE ROAD
HILL VIEW ROAD
HILL AVENUE
HILL STATION
Für Taj und Hill, möchte ich nur Bigramme und Trigramme, ruhen alle Worte, die ich Unigramm- wollen, Bigramme und Trigramme.
** OUTPUT BigRAM und Unigramm- **
TAJ MAHAL
TAJ MALABAR
MALABAR KOCHI
TAJ RESIDENCY
KOCHI
LEELA
PALACE
LEELA PALACE
PALACE ROAD
HILL VIEW
HILL AVENUE
HILL STATION
Wenn ich als Stoppwörter Taj und Hill versuchen, die Bigramme und Trigramme sind nicht auch erzeugt
cv = CountVectorizer(max_features = 200,analyzer='word',ngram_range=(1, 3))
cv_txt = cv.fit_transform(data.pop('Txt'))
for i, col in enumerate(cv.get_feature_names()):
data[col] = pd.SparseSeries(cv_txt[:, i].toarray().ravel(), fill_value=0)
Nach der Filterung Aus den spezifischen Unigrammen möchte ich sie an den Datenrahmen anhängen, damit ich einen Klassifikationsalgorithmus ausführen kann. Endgültige Ausgabe ist dünn besetzte Matrix von countvectorized Textdaten
Verwendung 'ngram_range = (2 , 3) ' –
@ Vivek-Kumar Ich bin Gue OP wollte bestimmte Unigramme entfernen, aber generell Unigramme beibehalten. – ncfirth
@ncfirth, richtig. Außerdem möchte ich die Elemente nach dem Filtern von countvectorizer zurück zum Datenrahmen anfügen. – pankaj