2016-09-02 2 views
0

Ich habe eine Liste von 1000s 7-Nummern-Sequenzen und ich möchte wissen, welche Kombination von Zahlen am häufigsten sind, von 2 bis 7 Zahlen.Häufigste Kombinationen von Zahlen finden

So zum Beispiel in dieser Liste:

1, 2, 3, 4, 5, 6, 7 
1, 2, 4, 5, 6, 8, 9 
1, 2, 9, 10, 12, 15, 27 

[1, 2] wäre die höchste Punktefolge in der 2-Nummer Kategorie [1, 2, 4], dass für die 3-Nummer Kategorie würde usw.

Ich habe das Gefühl, numpy oder ein anderes Framework könnte mir dabei helfen, aber ich habe kein Verständnis für Statistiken und mir fehlt das notwendige Vokabular um zu beschreiben und somit zu finden was ich will.

Vielen Dank im Voraus!

+4

Warum "[1,2,4]" im Gegensatz zu z.B. '[4,5,6]'? –

+0

@JohnColeman Sie existieren nicht in der letzten Liste –

+1

Sie wollen also, über jede mögliche Folge von * n * verschiedenen Nummern, die in den meisten Ihrer 7-Nummern-Sequenzen vorkommt? Und das für verschiedene Werte von * n * zu tun? –

Antwort

1

Sie können einen Data Mining-Ansatz verwenden, um Ihr Ziel zu erreichen: Es wird häufiger Itemset-Mining genannt. Tatsächlich

, dass unter der Annahme:

1, 2, 3, 4, 5, 6, 7 
1, 2, 4, 5, 6, 8, 9 
1, 2, 9, 10, 12, 15, 27 

Ihre Transaktionsdatenbank ist, wobei eine Transaktion eine Zeile ist (zum Beispiel: 1, 2, 3, 4, 5, 6, 7) und eine Transaktion enthält Elemente, die in Ihrem Fall ganze Zahlen sind. Das Ziel besteht dann darin, die häufigsten Artikelmengen zu ermitteln (dh Mengen von Artikeln/Ganzzahlen, die am häufigsten in der Transaktionsdatenbank vorkommen). pymining ist eine Python-Bibliothek zum Erreichen dieser Art von Aufgabe (https://github.com/bartdag/pymining)

+0

Ich habe es gerade versucht und es scheint zu funktionieren; Ich nahm das "Frequent Item Set Mining" -Beispiel und legte meine Beispieldaten ein. Nach dem Sortieren der Ergebnisse wird [1, 2] tatsächlich dreimal gezählt. (Ich warte, bevor ich deine Antwort akzeptiere, nur um zu sehen, ob noch etwas erscheint). – LaundroMat

Verwandte Themen