2017-10-21 4 views
0

Ich kann nicht scheinen Sinn des Datensatzes durch Keras Gebrauch zu machen reuters-Datensatz.Reconstruct Nachrichten Texte von Keras' reuters Dataset

Das Set ist wie so geladen:

(x_train, y_train), (x_test, y_test) = reuters.load_data() 

Soweit ich die „x“ verstehen Arrays Arrays von Sequenzen sind (Listen) von Wortindizes von Nachrichten Geschichten und die „y“ Arrays sind Anordnungen von die Themen dieser Sequenzen.

Aber wenn ich versuche, die Wortindizes einer der Sequenzen mit dem mitgelieferten Wörterbuch in tatsächliche Wörter zu übersetzen:

wordDict = {y:x for x,y in reuters.get_word_index().items()} 
for index in x_train[0]: 
    print (wordDict.get(index)) 

Die Sequenz scheint keinen Sinn zu machen. Wie verwandle ich die Sequenzen zurück in die ursprünglichen Nachrichten?

Bearbeiten: Ähnliche Ergebnisse gefunden here. Offensichtlich gibt es ein Problem mit den Indizes im Wörterbuch, die nicht mit den Wortindizes im Dataset übereinstimmen. Aber das erneute Laden der Daten löst das Problem nicht für mich.

+0

Siehe Zelle 6 in https://github.com/fchollet/deep-learning-with-python-notebooks/blob/master/3.6-classifying-newswires.ipynb –

Antwort

1

Der Standardwert für das load_data Argument „index_from“ lässt die Indizes der tatsächlichen Wort> 3. Man kann die Texte rekonstruieren, indem wordDict.get(index - 3) verwenden.

Verwandte Themen