numpy.unique mit Auftrag erhalten

['b','b','b','a','a','c','c']

numpy.uniquenumpy.unique mit Auftrag erhalten

['a','b','c']

gibt Wie kann ich die ursprüngliche Reihenfolge

erhalten erhalten

['b','a','c']

Große Antworten. Bonus-Frage. Warum funktioniert keine dieser Methoden mit diesem Dataset? http://www.uploadmb.com/dw.php?id=1364341573 Hier ist die Frage numpy sort wierd behavior

Quelle

2013-03-26 siamii

unique() ist langsam, O (Nlog (N)), aber Sie können dies durch folgenden Code tun:

import numpy as np 
a = np.array(['b','a','b','b','d','a','a','c','c']) 
_, idx = np.unique(a, return_index=True) 
print a[np.sort(idx)]

Ausgang:

['b' 'a' 'd' 'c']

Pandas.unique() ist viel schneller für große Array O (N):

import pandas as pd 

a = np.random.randint(0, 1000, 10000) 
%timeit np.unique(a) 
%timeit pd.unique(a) 

1000 loops, best of 3: 644 us per loop 
10000 loops, best of 3: 144 us per loop

Quelle

2013-03-26 12:50:33 HYRY

Die O (N) -Komplexität wird nirgends erwähnt und ist daher nur ein Implementierungsdetail. Die Dokumentation besagt einfach, dass es * wesentlich schneller ist als "numpy.unique" *, aber dies kann einfach bedeuten, dass es kleinere Konstanten hat oder die Komplexität zwischen linear und NlogN liegt. – Bakuriu

Es wird hier erwähnt: http://www.slideshare.net/fullscreen/wesm/a-look-at-pandas-design-and-development/41 – HYRY

Wie würden Sie die Bestellung mit 'pandas.unique()' erhalten? Soweit ich das beurteilen kann, erlaubt es keine Parameter. –

a = ['b','b','b','a','a','c','c'] 
[a[i] for i in sorted(np.unique(a, return_index=True)[1])]

Quelle

2013-03-26 12:44:43 YXD

Dies ist nur ein langsamere Version der akzeptierten Antwort – Eric

Verwenden Sie die return_index Funktionalität von np.unique. Dies gibt die Indizes zurück, bei denen die Elemente in der Eingabe zum ersten Mal aufgetreten sind. Dann argsort diese Indizes.

>>> u, ind = np.unique(['b','b','b','a','a','c','c'], return_index=True) 
>>> u[np.argsort(ind)] 
array(['b', 'a', 'c'], 
     dtype='|S1')

Quelle

2013-03-26 12:49:35

Wenn Sie versuchen, Duplikation eines bereits sortiert iterable zu entfernen, können Sie itertools.groupby Funktion:

>>> from itertools import groupby 
>>> a = ['b','b','b','a','a','c','c'] 
>>> [x[0] for x in groupby(a)] 
['b', 'a', 'c']

Dies funktioniert eher wie Unix ‚uniq‘ Befehl, weil es die Liste geht davon aus bereits sortiert. Wenn Sie es auf unsortierten Liste versuchen, werden Sie etwas wie diese:

>>> b = ['b','b','b','a','a','c','c','a','a'] 
>>> [x[0] for x in groupby(b)] 
['b', 'a', 'c', 'a']

Quelle

2013-03-26 12:54:47

Nahezu die ganze Zeit werden 'numpy' Probleme mit' numpy' schneller gelöst, reine Python-Lösungen werden langsamer, da 'numpy' spezialisiert ist. – jamylak

Wenn Sie wiederholte Einträge löschen möchten, wie das Unix-Tool uniq, ist dies eine Lösung:

def uniq(seq): 
    """ 
    Like Unix tool uniq. Removes repeated entries. 
    :param seq: numpy.array 
    :return: seq 
    """ 
    diffs = np.ones_like(seq) 
    diffs[1:] = seq[1:] - seq[:-1] 
    idx = diffs.nonzero() 
    return seq[idx]

Quelle

2015-07-10 13:40:45 Albert

Dies funktioniert nur für Zahlen. Verwenden Sie '! =' Anstelle von '-' – Eric

numpy.unique mit Auftrag erhalten

Antwort

Verwandte Themen