2015-05-11 7 views
6

Wenn ich eine dict von Listen wie:Wie man die Größe der Listen mit einem Diktat zählt?

{ 
    'id1': ['a', 'b', 'c'], 
    'id2': ['a', 'b'], 
    # etc. 
} 

und ich möchte die Größe der Listen übereinstimmen, dh die Anzahl der Ids> 0> 1> 2 ... etc

.

gibt es einen einfacheren Weg, als wie dies für Schleifen verschachtelt:

dictOfOutputs = {} 
for x in range(1,11): 
    count = 0 
    for agentId in userIdDict: 
     if len(userIdDict[agentId]) > x: 
      count += 1 
    dictOfOutputs[x] = count   
return dictOfOutputs 

Antwort

2

ich eine collections.Counter() object Längen zu sammeln verwenden würde, sammeln sich dann die Summen:

from collections import Counter 

lengths = Counter(len(v) for v in userIdDict.values()) 
total = 0 
accumulated = {} 
for length in range(max(lengths), -1, -1): 
    count = lengths.get(length, 0) 
    total += count 
    accumulated[length] = total 

So sammelt das Zählungen für jede Länge, dann erstellt ein Wörterbuch mit kumulativen Längen. Dies ist ein O (N) Algorithmus; Sie Schleife über alle einmal Werte, dann auf einige kleinere gerade Schleifen (für max() und der Akkumulationsschleife) hinzufügen:

>>> from collections import Counter 
>>> import random 
>>> testdata = {''.join(random.choice('abcdefghijklmnopqrstuvwxyz') for _ in range(5)): [None] * random.randint(1, 10) for _ in range(100)} 
>>> lengths = Counter(len(v) for v in testdata.values()) 
>>> lengths 
Counter({8: 14, 7: 13, 2: 11, 3: 10, 4: 9, 5: 9, 9: 9, 10: 9, 1: 8, 6: 8}) 
>>> total = 0 
>>> accumulated = {} 
>>> for length in range(max(lengths), -1, -1): 
...  count = lengths.get(length, 0) 
...  total += count 
...  accumulated[length] = total 
... 
>>> accumulated 
{0: 100, 1: 100, 2: 92, 3: 81, 4: 71, 5: 62, 6: 53, 7: 45, 8: 32, 9: 18, 10: 9} 
0

Ja, es einen besseren Weg gibt.

Zuerst Index die Ide durch die Länge ihrer Daten:

my_dict = { 
    'id1': ['a', 'b', 'c'], 
    'id2': ['a', 'b'], 
} 

from collections import defaultdict 
ids_by_data_len = defaultdict(list) 

for id, data in my_dict.items(): 
    my_dict[len(data)].append(id) 

Erstellen Sie jetzt Ihre dict:

output_dict = {} 
accumulator = 0 
# note: the end of a range is non-inclusive! 
for data_len in reversed(range(1, max(ids_by_data_len.keys()) + 1): 
    accumulator += len(ids_by_data_len.get(data_len, [])) 
    output_dict[data_len-1] = accumulator 

Dies hat O (n) Komplexität statt O (n²), es ist also auch viel schneller für große Datenmengen.

Verwandte Themen