2017-07-04 2 views
0

Ich habe eine CSV-Datei mit einigen Daten und ich möchte synthetische Daten basierend auf diesen Daten generieren. Mit anderen Worten, ich möchte neue Daten mit der gleichen Verteilung wie die alten Daten erzeugen, wie beim statistischen Bootstrapping.Wie generiere ich synthetische Daten in Python?

Wie kann ich das in Python tun?

Ich habe einige Bibliotheken in R gefunden, aber in Python habe ich nichts gefunden.

+1

Ich denke, du solltest selbst ein Skript machen, aber es ist ziemlich einfach. Sie können ein Beispiel finden wie: http://www.python-course.eu/synthetical_test_data_with_python.php – Dadep

+0

Was genau versuchen Sie zu tun? Ist Bootstrapping mit Resampling in Ihrem Fall nicht angebracht? – rafaelvalle

Antwort

1

Wie in den Kommentaren erwähnt, sind Sie wahrscheinlich besser dran, Ihr eigenes Skript zu schreiben. Sie können import pandas für den Zugriff auf CSV-Dateien und import numpy für Stichproben verwenden.

glaube ich, die folgenden ist der Code Sie wollen:

import pandas as pd 
import numpy as np 

df = pd.read_csv('CSV_file.csv') 

size_of_sample = 10 

rows = np.random.choice(df.index.values, size_of_sample) 

df_sample = df.loc[rows] 

Die numpy choice Funktion Proben mit Ersatz durch Standard so eine Probe mit der gleichen Verteilung wie das Original Datenrahmen generiert.

Verwandte Themen