effizienter Algorithmus zum zufälligen Auswahl von Elementen mit frequenz

Gegeben eine Anordnung von n Worthäufigkeitspaaren:effizienter Algorithmus zum zufälligen Auswahl von Elementen mit frequenz

[ (w₀, f₀), (w₁, f₁), ..., (w_n-1, f_n-1) ]

wo w_i ist ein Wort, f_i eine ganze Zahl frequencey, und die Summe der Frequenzen ∑f_i = m,

Ich möchte mit einem Pseudozufallszahlengenerator (pRNG) p Wörter w_j₀, w_j₁, ..., w_{j_p-1} so wählen, dass die Wahrscheinlichkeit der Auswahl eines Wortes ist proportional zu seiner Frequenz:

P(w_i = w_{j_k}) = P(i = j_k) = f_i/m

(Beachten Sie, ist diese Auswahl mit Ersatz, so dass das gleiche Wort kann jedes Mal gewählt werden).

Ich habe bisher mit drei Algorithmen kommen:

eine Reihe von Größe erstellen m, und füllen Sie es so die ersten f₀ Einträge sind w₀, die nächsten f₁ Einträge sind w₁, und so weiter , so die letzten f_p-1 Einträge sind w_p-1.
```
[ w₀, ..., w₀, w₁,..., w₁, ..., w_p-1, ..., w_p-1 ]
```
Dann verwenden Sie die pRNG, um Indizes im Bereich 0...m-1 auszuwählen, und melden Sie die Wörter in diesen Indizes gespeichert.
Dies dauert O(n + m + p) Arbeit, die nicht gut ist, da m viel viel größer als n sein kann.
Schritt durch die Eingangsanordnung einmal Rechen
```
m_i = ∑_h≤if_h = m_i-1 + f_i
```
und m_i nach Berechnung verwenden, um die pRNG eine Anzahl x_k im Bereich zu erzeugen 0...m_i-1 für jeden k in 0...p-1 und wählt w_i für w_{j_k} (möglicherweise den aktuellen Wert des Ersetzen w_{j_k}) wenn x_k < f_i.
Dies erfordert O(n + np) Arbeit.
Compute m_i wie in Algorithmus 2 und erzeugen die folgende Anordnung auf n Wortfrequenz-Teilsumme Tripel:
```
[ (w₀, f₀, m₀), (w₁, f₁, m₁), ..., (w_n-1, f_n-1, m_n-1) ]
```
und dann für jeden k in 0...p-1, verwenden, um die pRNG eine Anzahl x_k im Bereich zu erzeugen 0...m-1 dann binäre Suche auf dem Array von Tripeln, um die i st zu finden m_i-f_i ≤ x_k < m_i, und wählen Sie w_i für w_{j_k}.
Dies erfordert O(n + p log n) Arbeit.

Meine Frage ist: Gibt es einen effizienteren Algorithmus ich dafür verwenden können, oder sind diese so gut wie es geht?

Quelle

2009-05-16 rampion

dies ist OT, und bitte dafür tötet mich nicht, aber wie haben Sie sub/Super-Skripte und die Summe Gleichung Zeichen bekommen? – dassouki

Verwenden Sie einfach _... innerhalb ... Blöcke (für Inline) oder

...

Blöcke (für Fullline). – rampion

Und für das Summenzeichen, verwenden Sie einfach ∑ (siehe http://www.w3.org/TR/WD-entities-961125 für weitere HTML-Entitäten für Math-Sigils) – rampion

Ok, fand ich einen anderen Algorithmus: the alias method (auch erwähnt in this answer). Grundsätzlich erstellt es eine Teilung des Wahrscheinlichkeitsraum, so dass:

Es gibt n Partitionen, alle von der gleichen Breite r S. T. nr = m.
jede Partition enthält zwei Wörter in einem Verhältnis (das mit der Partition gespeichert wird).
für jedes Wort w_i, f_i = ∑_{partitions t s.t w_i ∈ t} r × ratio(t,w_i)

Da alle Partitionen sind von der gleichen Größe, die Auswahl, welche Partition in konstanten Arbeit getan werden kann (einen Index von 0...n-1 zufällig wählen), und das Verhältnis der Partition kann dann verwendet werden, um auszuwählen, welches Wort in konstanter Arbeit verwendet wird (vergleiche eine pRNGed-Zahl mit dem Verhältnis zwischen den beiden Wörtern). Das bedeutet also, dass die Auswahlen in O(p) Arbeit getan werden können, vorausgesetzt solch eine Partition.

Der Grund, warum eine solche Partitionierung existiert, ist, dass es ein Wort gibt w_i s.t. f_i < r, wenn und nur wenn es ein Wort gibt w_i' s.t. f_i' > r, da r der Durchschnitt der Frequenzen ist.

Bei einem solchen Paar w_i und w_i' wir sie mit einem Pseudowort f'_i = rw'_i der Frequenz ersetzen kann (das bedeutet w_i mit Wahrscheinlichkeit f_i/rw_i' und mit einer Wahrscheinlichkeit von 1 - f_i/r) und ein neues Wort w'_i' der eingestellten Frequenz f'_i' = f_i' - (r - f_i) sind. Die durchschnittliche Häufigkeit aller Wörter ist immer noch r, und die Regel aus dem vorherigen Absatz gilt immer noch. Da das Pseudowort die Frequenz r hat und aus zwei Wörtern mit der Frequenz ≠ r besteht, wissen wir, dass wir, wenn wir diesen Prozess iterieren, niemals ein Pseudowort aus einem Pseudowort erzeugen werden, und eine solche Iteration muss mit a enden Folge von n Pseudowörtern, die die gewünschte Partition darstellen.

Um diese Partition in O(n) Zeit zu konstruieren,

einmal die Liste der Wörter gehen, zwei Listen Konstruktion:
- einem der Wörter mit der Frequenz ≤ r
- einem der Wörter mit Frequenz > r
dann ziehen Sie ein Wort von der ersten lis t
- wenn seine Frequenz = r, dann ist es in eine Partition eines Elements bilden
- Andernfalls zieht ein Wort aus der anderen Liste, und verwenden sie eine Zwei-Wort-Partition auszufüllen. Dann lege das zweite Wort entsprechend der eingestellten Frequenz entweder in die erste oder in die zweite Liste zurück.

Dies funktioniert eigentlich immer noch, wenn die Anzahl der Partitionen q > n (Sie es gerade anders beweisen müssen). Wenn Sie sicherstellen möchten, dass r integral ist, und Sie nicht leicht einen Faktor q von m s.t finden können. q > n können Sie alle Frequenzen mit einem Faktor von n, also f'_i = nf_i, die m' = mn aktualisiert und r' = m wenn q = n setzt.

In jedem Fall braucht dieser Algorithmus nur O(n + p) Arbeit, die ich für optimal halte.

in Ruby:

def weighted_sample_with_replacement(input, p) 
    n = input.size 
    m = input.inject(0) { |sum,(word,freq)| sum + freq } 

    # find the words with frequency lesser and greater than average 
    lessers, greaters = input.map do |word,freq| 
         # pad the frequency so we can keep it integral 
         # when subdivided 
         [ word, freq*n ] 
         end.partition do |word,adj_freq| 
         adj_freq <= m 
         end 

    partitions = Array.new(n) do 
    word, adj_freq = lessers.shift 

    other_word = if adj_freq < m 
        # use part of another word's frequency to pad 
        # out the partition 
        other_word, other_adj_freq = greaters.shift 
        other_adj_freq -= (m - adj_freq) 
        (other_adj_freq <= m ? lessers : greaters) << [ other_word, other_adj_freq ] 
        other_word 
       end 

    [ word, other_word , adj_freq ] 
    end 

    (0...p).map do 
    # pick a partition at random 
    word, other_word, adj_freq = partitions[ rand(n) ] 
    # select the first word in the partition with appropriate 
    # probability 
    if rand(m) < adj_freq 
     word 
    else 
     other_word 
    end 
    end 
end

Quelle

2009-05-16 22:10:18 rampion

Bessere Implementierung unter http://gist.github.com/112858 – rampion

Dies klingt wie Rouletteauswahl, hauptsächlich für den Auswahlprozess in genetischen/evolutionären Algorithmen verwendet.

Blick auf Roulette Selection in Genetic Algorithms

Quelle

2009-05-16 15:06:17 seb

Ja, genau das ist der Algorithmus, der benötigt wird. Du wirst sicher nicht schneller als O (n) -Komplexität werden. – Noldorin

Ok. Sie verwenden nur die iterative Suche, die O (n log m) erfordert, um alle auszuwählen, und eine Gesamtarbeit von O (n log m + pn log m), genau wie mein Algorithmus 2. Danke! – rampion

mit binärer Suche ist es O (n + p * log n). Warum hast du * m * da? Es beeinflusst die Komplexität des Algorithmus nicht. –

könnten Sie das Ziel Array erstellen, dann Schleife durch die Worte, um die Wahrscheinlichkeit zu bestimmen, dass sie abgeholt werden sollen, und die Worte in der Anordnung ersetzen nach einer Zufallszahl.

für das erste Wort der Wahrscheinlichkeit f würde/m (wobei m n = f 0 + .. + f n), dh 100%, so dass alle Positionen in das Zielarray würde mit w gefüllt werden.

Für die folgenden Wörter fällt die Wahrscheinlichkeit, und wenn Sie das letzte Wort erreichen, wird das Zielarray mit zufällig ausgewählten Wörtern entsprechend der Häufigkeit gefüllt.

Beispiel Code in C#:

public class WordFrequency { 

    public string Word { get; private set; } 
    public int Frequency { get; private set; } 

    public WordFrequency(string word, int frequency) { 
     Word = word; 
     Frequency = frequency; 
    } 

} 

WordFrequency[] words = new WordFrequency[] { 
    new WordFrequency("Hero", 80), 
    new WordFrequency("Monkey", 4), 
    new WordFrequency("Shoe", 13), 
    new WordFrequency("Highway", 3), 
}; 

int p = 7; 
string[] result = new string[p]; 
int sum = 0; 
Random rnd = new Random(); 
foreach (WordFrequency wf in words) { 
    sum += wf.Frequency; 
    for (int i = 0; i < p; i++) { 
     if (rnd.Next(sum) < wf.Frequency) { 
      result[i] = wf.Word; 
     } 
    } 
}

Quelle

2009-05-16 15:54:48 Guffa

Rechts. Das ist genau Algorithmus 2. – rampion

Ist es das was du meinst? Ich wurde von der O() Berechnung abgeworfen. Die Häufigkeitswerte sind irrelevant für den Umfang der Arbeit, also hat das m keinen Wert in dem O() Wert. Es sollte einfach O (np) sein. – Guffa

Nein, die Frequenzwerte sind wichtig - für die Speicherung einer Frequenz sind O (log m) -Bits erforderlich, und O (log m) arbeitet, um zwei Frequenzen hinzuzufügen oder zwei zu vergleichen. Normalerweise wird dies einfach durch einen konstanten Term verschluckt, wenn log m <64 (Sie speichern es in einem 64-Bit-Int), aber für größere Zahlen kann es wichtig sein. – rampion

effizienter Algorithmus zum zufälligen Auswahl von Elementen mit frequenz

Antwort

Verwandte Themen