2

Wie nehme ich kategorische und kontinuierliche Daten aus einer CSV-Datei (wie Titanic dataset) und bekomme sie in ein gutes Format für Tensorflow, ohne die tf.learn API zu verwenden (zB pure Tensorflow) ?Mischen von kategorischen und kontinuierlichen Daten in reinem Tensorflow

Zum Beispiel

  • kategorische Daten könnten (in meinem Fall) sein 'vehicle_make', 'vehicle_model'
  • Kontinuierliche Daten könnten 'Preis' sein, 'Kilometerstand'

I dann will, wie im folgenden Beispiel, diese Daten als Eingabe in ein mehrschichtiges Perzeptron neuronales Netzwerk verwenden:

https://github.com/aymericdamien/TensorFlow-Examples/blob/master/notebooks/3_NeuralNetworks/multilayer_perceptron.ipynb

Cheers,

Baz

Antwort

3

Sie one-hot-Codierung für kategorische Daten verwenden können.

Grundsätzlich können Sie vehicle_model numerischen Wert

Tesla S Karte -> 1

Ford Focus -> 2

... -> i

Und dann Vektor verwenden, um mit allen Nullen und 1 in i-ten Position, den Wert darzustellen:

Tesla S -> [1, 0, 0]

0.123.

Ford Focus -> [0, 1, 0]

beide tensorflow und scikit learn haben Funktionen, das zu tun.

Kontinuierliche Daten wie sie sind, als einer der Werte des Eingabevektors einschließen.

+0

Muss ich die kontinuierlichen Werte zwischen 0 und 1 skalieren? Wenn ja, wie empfehlen Sie das? Prost. –

+1

Normalisierung von Eingabedaten ist fast immer ein vernünftiger Schritt zu tun, stellen Sie einfach sicher, dass alle Daten auf die gleiche Weise normalisiert werden und das Testen von Daten keine Informationen an Trainingssätze "leckt" e.t.c. – hamilyon

Verwandte Themen