2009-05-31 5 views
2

Angesichts der Folge pf Zahlen N, N, N... von einer Quelle, kein PRNG aber Sensor oder Protokolldaten von einer Art sagen, ist es sicher, dass es wie diesWelcher Teil von Zahlen hat mehr Entropie?

Verarbeitung zu übernehmen

Nn/ B = Q n   Rem Mn

wird in der Folge führen Q haveing ​​weniger Entropie als die Sequenz M?

Hinweis: angenommen, dass B so ist, dass sowohl Q als auch M denselben Größenbereich haben.


Dies steht im Zusammenhang mit the observation that most real world data sets, regardless or there source, have a logarithmic distribution; Zahlen, die mit 1 beginnen, sind viel häufiger als Zahlen, die mit 9 beginnen. Aber das sagt wenig über die Teile niedriger Ordnung aus.

für eine unterhaltsame Art und Weise dies zu testen (und Sie sys admin bogging seinen Computer verpissen) dies in bash ausführen:

ll -R 2>/dev/null | grep -v -e "^\./" | sed "s/[-rdwxlp]*\W*[0-9]*\W*[a-z]*\W*[a-z]*\W*\([0-9]\).*/\1/" | sort | uniq -c 

und das Histogramm der ersten Zahl von Dateigrößen zu erhalten.

Antwort

1

Dies hängt von der Reihenfolge ab. Nehmen wir zum Beispiel [1 * 7 = 7, 3 * 7 = 21, 6 * 7 = 42 ... (2 * N - 1) * 7] und B = 7. Qn wird [1, 3, 6, ... 2 * N - 1] und Mn wird immer 0 sein. Normalerweise wird Entropie für Q weniger sein, da es ist, als ob man ein paar Bits wegschieben würde, aber es ist nicht immer so.

Und natürlich wird dies nicht speziell für Daten funktionieren, die von einem (P) RNG kommen, da der Bereich für Qn derselbe wie der Bereich für Mn ist und für beide Zahlen (fast) gleichmäßig verteilt sind.

+0

IIRC für einige PRNGs Q wird weniger haben. – BCS

+0

Nur für schlechte PRNGs, und die Entropie-Differenz wird minimal sein, außer wenn Sie einige wirklich schlechte nehmen, wie die MSVC, bei der die unteren Bits "weniger zufällig" sind als die oberen Bits. – schnaader

+0

Versteht mich nicht falsch, gewöhnliche Sensordaten (wie die Temperatur) werden sich natürlich nur in den unteren Bits ändern, also wird Qn eine niedrigere Entropie haben. Aber mein Punkt ist, dass dies nicht für alle Arten von Daten gilt. – schnaader

Verwandte Themen