Ich habe ein Problem mit einer relativ einfachen Aufgabe mit ...verschmelzenden kehrt ungeradee Länge
Ich habe zwei Datenrahmen: df_sample
, die ich von csv lesen
+------+-----------+-------+-----------+
| key | Full Text | Date | Publisher |
+------+-----------+-------+-----------+
| abcd | foofoo | date1 | a |
| bcde | barbar | date2 | b |
| cdef | foobar | date3 | c |
+------+-----------+-------+-----------+
len(df_sample) = 20000
df_labels
, die ich aus Excel lesen
Ich möchte beide Tabellen auf Schlüssel, relevant
Wert für jeden Schlüssel von der ersten zuweisen Datenrahmen. Die gewünschte Ausgabe würde wie folgt sein:
+------+-----------+-------+-----------+----------+
| key | Full Text | Date | Publisher | relevant |
+------+-----------+-------+-----------+----------+
| abcd | foofoo | date1 | a | yes |
| bcde | barbar | date2 | b | no |
| cdef | foobar | date3 | c | no |
+------+-----------+-------+-----------+----------+
Ich scheine das zu erreichen, aber warum die folgenden mir 27.377 Ergebnisse anstelle von 20000 gibt (wie in Original-links-Tabelle):
df = pd.merge(left=df_sample, right=df_labels, on="key")
haben Sie überprüft, dass die Schlüsselspalte Werte in zweiten df sind, wenn sie wiederholt werden, dann erhalten Sie wiederholte Zeilen, zusätzlich haben Sie 'NaN' in beiden Schlüsselspalte? – EdChum
natürlich, es gab einige Duplikate in der zweiten df ... Vielen Dank für die Ausrichtung in die richtige Richtung! – pawelty