pad_sequences
wird verwendet, um sicherzustellen, dass alle Sequenzen in einer Liste die gleiche Länge haben. Standardmäßig wird dazu am Anfang jeder Sequenz 0
aufgefüllt, bis jede Sequenz die gleiche Länge wie die längste Sequenz hat.
Zum Beispiel
>>> pad_sequences([[1, 2, 3], [3, 4, 5, 6], [7, 8]])
array([[0, 1, 2, 3],
[3, 4, 5, 6],
[0, 0, 7, 8]], dtype=int32)
[3, 4, 5, 6]
ist die längste Sequenz, so 0
wird auf die anderen Sequenzen aufgefüllt werden, so dass ihre Länge [3, 4, 5, 6]
einstimmt.
Wenn Sie lieber bis zum Ende der Sequenzen auffüllen möchten, können Sie padding='post'
einstellen. Wenn Sie die maximale Länge jeder Sequenz angeben möchten, können Sie das maxlen
Argument verwenden. Dadurch werden alle Sequenzen länger als maxlen
abgeschnitten.
>>> pad_sequences([[1, 2, 3], [3, 4, 5, 6], [7, 8]], maxlen=3)
array([[1, 2, 3],
[4, 5, 6],
[0, 7, 8]], dtype=int32)
Jetzt hat jede Sequenz stattdessen die Länge 3.