Angesichts der folgenden Datenrahmen:Pandas Label-Dubletten
import pandas as pd
d=pd.DataFrame({'label':[1,2,2,2,3,4,4],
'values':[3,5,7,2,5,8,3]})
d
label values
0 1 3
1 2 5
2 2 7
3 2 2
4 3 5
5 4 8
6 4 3
Ich weiß, wie die einzigartigen Werte wie folgt zählen:
d['dup']=d.groupby('label')['label'].transform('count')
was zur Folge hat:
label values dup
0 1 3 1
1 2 5 3
2 2 7 3
3 2 2 3
4 3 5 1
5 4 8 2
6 4 3 2
Aber was Ich möchte, dass eine Spalte die folgenden Werte hat: 1
wenn dort ist 1 unique
Zeile pro der Spalte Label, 2
wenn es duplicates
und die betreffende Zeile ist die first
von solchem, und 0
, wenn die Zeile ein duplicate
eines Originals ist. Gefällt mir:
label values dup status
0 1 3 1 1
1 2 5 3 2
2 2 7 3 0
3 2 2 3 0
4 3 5 1 1
5 4 8 2 2
6 4 3 2 0
Vielen Dank im Voraus!
Ich mag die Doppel 'where', hast du meine Stimme :) – IanS
@IanS - Danke. ;) – jezrael
Perfekt. Vielen Dank! –