Antwort

1

Ein Weg ist zu denken, wie viele 3 x 3 x 3 Würfel können Sie schneiden und greifen von 6 x 6 x 3 Rechteckprisma.

Auch lassen Sie uns die Frage einfacher machen.

Nehmen wir an, Sie haben 2 x 2 Input Image Patch und Sie wollen 2 x 2 Faltung machen. Wieviele Möglichkeiten, wie Sie 2 x 2 Faltung an den Bildausschnitt anpassen können = 1 x 1 (1 in x Richtung, 1 in y Richtung)

Wir erweitern es: 4 x 2 Eingabebild mit 2 x 2 Conv. Eindeutige Faltungszahl = 3 x 1 (3 in x-Richtung, 1 in y-Richtung usw.)

Lassen Sie es uns erweitern: 4 x 4 Eingangsbild mit 2 x 2 Conv. Unique convolution count = 3 x 3

Lassen Sie es erweitern: 4 x 4 x 2 Eingangsbild mit 2 x 2 x 2 Conv. Eindeutige Faltungszahl = 3 x 3 x 1

Wir erweitern es: 6 x 6 x 3 Eingabebild mit 3 x 3 x 3 Conv. Eindeutige Faltungsanzahl = 4 x 4 x 1

1

Wenn Sie eine Faltung anwenden, summiert sie sich über die Ausgaben Ihrer Kerngewichtungen multipliziert mit Ihren Eingabewerten. In diesem Fall führen Sie keine Auffüllung Ihrer Eingabe durch, dh Sie geben nur die Werte aus, die vollständig definiert sind. Wenn Sie die Dimensionen Ihrer Eingabe als (x, y, z) betrachten, können Sie sehen, dass Ihr Kernel in der x- und y-Dimension kleiner ist, aber in z gleich ist. Das bedeutet, dass Sie den Kernel sowohl in X- als auch in Y-Richtung verschieben können, um eine Ausgabe für jede Position zu erzeugen. In Z-Richtung kann er jedoch nicht verschoben werden, sodass nur eine einzige Ausgabe (die Summe über alle Kanäle) ausgegeben wird.