Ich habe eine Excel-Datei mit Usertyp, ID und Beschreibung der Eigenschaften. Ich habe diese Datei in Python Pandas im Dataframe (df) importiert.Pandas Dataframe Spalte Wert Split
Jetzt möchte ich den Inhalt in Beschreibung in ein Wort, zwei Wörter und drei Wörter teilen. Ich bin in der Lage, ein Wort Tokenization mit Hilfe der NLTK-Bibliothek zu tun. Aber ich stecke für die Tokenisierung mit zwei und drei Wörtern fest. Zum Beispiel hat eine der Reihen in der Spalte Description
Satz-
Ein brandneues Wohn-Apartment in Mumbai Hauptstraße mit tragbaren Wasser.
Ich mag dieser Satz als
"A Brand" aufgeteilt werden, "Brand new", "neues Wohn", "Wohnhaus" .... "portable Wasser".
Und diese Aufspaltung sollte in jeder Zeile dieser Spalte widerspiegeln.
Image of my dataset in excel format
Wie über Sie 1) nicht Bilder posten 2) schreiben Sie keine Links zu Bildern 3) viel weniger Links zu Bildern von _excel_ Daten. –
Und lesen Sie: http://StackOverflow.com/Questions/20109391/How-to-make-good-reproducible-pandas-examples –
Es gibt eine 'Ngrams' Funktion in Nltk, die dies ziemlich einfach macht, ein Argument für die Zahl von Wörtern, die Sie zusammen gruppieren möchten – kev8484