1

Ich versuche, die drop_duplicates Funktion in Pandas zu verwenden: http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.drop_duplicates.htmlDuplikate entfernen mit Pandas in Cloud-Datalab (von BigQuery) Zurückverfolgungsfehler

ssc_df = bq.Query(ssc_ciq_match).to_dataframe() 
ssc_df.drop_duplicates(ssc_df.ssc_ssc_key, keep = False) 

ich diesen Fehler:

ErrorTraceback (most recent call last) 
<ipython-input-9-3b85467271be> in <module>() 
----> 1 ssc_df.drop_duplicates(ssc_df.ssc_ssc_key, keep = False) 

/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs) 
    89     else: 
    90      kwargs[new_arg_name] = new_arg_value 
---> 91    return func(*args, **kwargs) 
    92   return wrapper 
    93  return _deprecate_kwarg 

/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in drop_duplicates(self, subset, keep, inplace) 
    3136   deduplicated : DataFrame 
    3137   """ 
-> 3138   duplicated = self.duplicated(subset, keep=keep) 
    3139 
    3140   if inplace: 

/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs) 
    89     else: 
    90      kwargs[new_arg_name] = new_arg_value 
---> 91    return func(*args, **kwargs) 
    92   return wrapper 
    93  return _deprecate_kwarg 

Antwort

0

Mein erster Gedanke ist, dass der erste Parameter (subset) eine Zeichenkette oder eine Liste von Zeichenketten sein sollte. Bitte können Sie Folgendes versuchen?

ssc_df = bq.Query(ssc_ciq_match).to_dataframe() 
ssc_df.drop_duplicates('ssc_ssc_key', keep = False) 

Wenn dies Ihr Problem nicht löst, könnten Sie bitte den vollständigen Stack-Trace bereitstellen? Die Frage enthält nur einen Teil des Stack-Trace.