2016-04-22 19 views
0

Ich bin neu mit Python. Kürzlich habe ich ein Projekt, das eine große Menge an Gesundheitsdaten in einer XML-Datei verarbeitet. Hier ist ein Beispiel:speichern große Daten Python

enter image description here

In meinen Daten gibt es etwa 100 von ihnen und jeder von ihnen hat unterschiedliche id, Herkunft, Art und Text. Ich möchte alle Daten in Daten speichern, so dass ich diesen Datensatz trainieren konnte, die erste Idee in meinen Gedanken war, 2D-ARRY zu verwenden (eine ID speichert und die anderen speichern den Text). Allerdings habe ich festgestellt, dass es zu viele Funktionen gibt und ich möchte wissen, welche Funktionen zu jedem Dokument gehören.

Könnte jemand einen besten Weg empfehlen, es zu tun.

+1

Sie können wahrscheinlich mit einem Wörterbuch mit ID als Schlüssel und entweder ein Wörterbuch (mit Features als Schlüssel und ihre Werte als Werte) oder ein Objekt als Wert durchkommen. – DeepSpace

+0

Ich habe das Bild in Ihre Frage kopiert, aber es ist am besten, relevanten Code mit '{}' anstelle von Bild zu posten. – Leb

+0

Soweit Ihr Problem, würde ich vorschlagen, Xml-Parsing-Pakete zu verwenden, um die Daten zu erhalten, wo Sie entweder in Wörterbuch oder möglichen Datenrahmen importieren können. So wie es jetzt steht, ist deine Frage zu weit gefasst. – Leb

Antwort

0

Für Skalierbarkeit, Einfachheit und Wartung, sollten Sie diese Daten normalisieren, ein Datenbankschema erstellen und jene Sachen in der Datenbank verschieben (SQLite, Postgres, MySQL, was auch immer)

Dies wird aus Python kompliziert Datenlogik bewegen. Dies ist eine typische Praxis von Model-View-Controller.

Erstellen Sie ein Python-Wörterbuch und durchlaufen Sie es sind schnell und schmutzig. Es wird sehr bald eine große technische Zeit werden, wenn Sie aus den Daten praktischen Sinn machen wollen.