2016-03-30 12 views
0

Ich habe eine CSV-Datei mit diesem Header text|business_idgroupby und kommen Textspalte

Ich will Gruppe, die alle zu einem unternehmensbezogenen Texte

I verwendet review_data=review_data.groupby(['business_id'])['text'].apply("".join)

Die review_data ist wie:

            text \ 
0  mr hoagi institut walk doe seem like throwback... 
1  excel food superb custom servic miss mario mac... 
2  yes place littl date open weekend staff alway ... 

     business_id 
0  5UmKMjUEUNdYWqANhGckJw 
1  5UmKMjUEUNdYWqANhGckJw 
2  5UmKMjUEUNdYWqANhGckJw 
Ich bekomme diesen Fehler:

das sind die Linien 130 bis 132:

130 use order fair often past 2 year food get progress wors everi time order doesnt help owner alway regist rude everi time final decid im done dont think feel let inconveni order food restaur let alon one food isnt even good also insid dirti heck deliv food bmw cant buy scrub brush found golden dragon collier squar 100 time better|SQ0j7bgSTazkVQlF5AnqyQ 
131 popular denni|wqu7ILomIOPSduRwoWp4AQ 
132 want smth quick late night would say denni|wqu7ILomIOPSduRwoWp4AQ 
+0

Ist 'review_data = review_data.groupby ([ 'business_id']) [ 'text']. apply ("". join) 'Arbeit? es sieht aus wie Sie die Indexnummer verketten – EdChum

+0

ja, das ist was wollte. aber ich bekomme immer noch Fehler beim Lesen einiger Zeilen: TypeError: sequence item 131: expected string, float gefunden – severine

+0

Das bedeutet, dass Sie fehlende Daten haben, Sie müssen Beispieldaten veröffentlichen, die diesen Fehler und Code reproduzieren – EdChum

Antwort

0

Ich glaube, Sie notnull Daten mit boolean indexing vor groupby filtern müssen:

print review_data 
      text    business_id 
0 mr hoagi 5UmKMjUEUNdYWqANhGckJw 
1 excel food 5UmKMjUEUNdYWqANhGckJw 
2   NaN 5UmKMjUEUNdYWqANhGckJw 
3 yes place 5UmKMjUEUNdYWqANhGckJw 


review_data = review_data[review_data['text'].notnull()] 
print review_data 
      text    business_id 
0 mr hoagi 5UmKMjUEUNdYWqANhGckJw 
1 excel food 5UmKMjUEUNdYWqANhGckJw 
3 yes place 5UmKMjUEUNdYWqANhGckJw 

review_data=review_data.groupby(['business_id'])['text'].apply("".join) 
print review_data 
business_id 
5UmKMjUEUNdYWqANhGckJw mr hoagi excel food yes place 
Name: text, dtype: object