Ich bin ein Anfänger in Python und maschinelles Lernen. Ich finde es wirklich schwierig, einen großen Datensatz (500 Beobachtungen x 300 Merkmale) für Training und Klassifikation zu laden. Bitte geben Sie den Code an, um so große Daten zu laden.Wie importiere ich einen großen Datensatz?
Antwort
Hier sind drei Möglichkeiten für Sie:
Legen Sie die Daten direkt in eine Liste von Listen
>>> data = [line.strip().split(',') for line in open('arrhythmia.txt')]
wird jeder Wert als String gelesen werden und Sie müssen entscheiden, was zu Mach es aber du wirst die größte Flexibilität haben.
Verwendung numpy.genfromtext, die die Daten in ein
numpy
ndarray lesen und kann die nicht-numerischen Werte behandeln („?“), Die in den Daten erscheinen.Verwenden Sie pandas.read_csv, die
numpy.genfromtext
ähnelt, aber liest die Daten in ein pandas.DataFrame Objekt. Dies erfordert, dass Sie auch das Modulpandas
haben, aber einige nette zusätzliche Funktionen (wie benannte Spalten/Attribute) zur Verfügung stellt.
Und es ist zu beachten, dass dies mehr ist in geeigneter Weise eine Antwort auf die Frage „Wie lese ich einen 2D-Array von kommagetrennten Datenwerten aus einer Textdatei“, da die Datendatei, die unter 400KB ist in Größe, konnte kaum ein "großer Datensatz" nach aktuellen (2016) Standards betrachtet werden.
- 1. Einen großen Datensatz transponieren
- 2. Wie importiere ich einen Textdateiinhalt in JavaScript?
- 3. Wie visualisiere ich einen großen Dokumentensatz?
- 4. Wie importiere ich Tkinter?
- 5. Anpassen eines linearen gemischten Modells an einen sehr großen Datensatz
- 6. Finden Sie einen Datensatz aus einer großen Anzahl von Datensätzen
- 7. Wie lösche ich einen Datensatz von ORMLITE?
- 8. Wie ändere ich einen Datensatz in Erlang?
- 9. Wie importiere ich moment.js angular2
- 10. Wie importiere ich `... /` in React?
- 11. Wie importiere ich eine Excel-Tabelle in einen Blog ..?
- 12. Entdecken periodische Muster in einem großen Datensatz
- 13. Ausführen von Operationen an einem großen Datensatz
- 14. Wie kann ich einen Vektor in einen Datensatz konvertieren?
- 15. Wie importiere ich ldapjs in EmberJS
- 16. Wie finde ich einen letzten Datensatz für einen Datensatz in der ersten Tabelle in Mysql
- 17. Wie importiere ich SoapUI-Projekt in Postman?
- 18. Wie importiere ich die Django DoesNotExist-Ausnahme?
- 19. Wie importiere ich Mixins mit `Pyjade` effizient?
- 20. wie importiere ich mysql daten mit ironpython
- 21. Wie kann man bestimmte Datenmengen aus einem großen Datensatz abrufen?
- 22. Wie importiere ich Pakete mit py.test richtig?
- 23. Factory Girl: Wie verknüpfe ich einen Datensatz mit einem anderen Datensatz, ohne einen neuen Datensatz zu erstellen?
- 24. PIG: Wie kann man einen großen Datensatz effizient laden und filtern?
- 25. Wie man einen sehr großen Datensatz mit scikit-learn trainiert/hochskaliert?
- 26. Wie importiere ich Ressourcen aus einem Bibliotheksprojekt?
- 27. Wie importiere ich Fotos von Facebook?
- 28. Wie importiere ich QOH in odoo 8
- 29. Wie importiere ich Cocoapod in Xcode 7.3?
- 30. Wie importiere ich Makros in Rust?
500 Instanzen mit 300 Features werden normalerweise nicht als großer Datensatz betrachtet. Trotzdem kann Ihnen niemand wirklich helfen, ohne den Typ und das Format der Daten zu kennen. – bogatron
ist das Arrhythmie-Dataset, das ich für die Klassifizierung aus dem UCI-Repository mit dem CSV-Format und dem reellen/numerischen Datentyp verwenden möchte – ash11114
Versuchen Sie es mit [numpy.loadtxt] (http://docs.scipy.org/doc/numpy/reference/generated /numpy.loadtxt.html). – bogatron