0

In einem textlichen Korpus gibt es 50 Textdokumente, dass jedes Dokument etwa 80 Zeilen ist. Ich möchte mein Korpus als Eingabe für Tensorflow füttern, aber ich möchte jedes Dokument im Stapel verarbeiten, wenn das System jedes Dokument liest? eigentlich dasselbe wie TfRecord, das für Bilder verwendet, die ich verwenden möchte, indem ich Tf.Data benutze, mache jedes Dokument in meinem Korpus stapelweise, um es sequentiell zu lesen?Konvertieren von Textdokument in tf.data in Tensorflow zum sequentiellen Lesen

Wie kann ich dieses Problem lösen?

Antwort

1

Sie können eine TextLineDataset erstellen, die die Zeilen Ihrer Dokumente enthalten:

dataset = tf.data.TextLineDataset(['doc1.txt', 'doc2.txt', ...]) 

Nachdem Sie den Datensatz zu erstellen, können Sie die Saiten in Partien aufgeteilt mit der batch Methode und andere Methoden der Dataset Klasse.

Verwandte Themen