Ich versuche ein Papier über Semantische Segmentierung zu implementieren und ich bin verwirrt darüber, wie die Vorhersagekarte, die von meinem Segmentierungsnetzwerk erzeugt wird, mit der Eingabebildgröße übereinstimmt.Upsampling in der semantischen Segmentierung
Zum Beispiel verwende ich eine Variante von Resnet101 als Segmentierung Netzwerk (wie von der Zeitung verwendet). Mit dieser Netzwerkstruktur ergibt eine Eingabe der Größe 321x321 (wiederum in der Arbeit verwendet) eine endgültige Vorhersagekarte der Größe 41x41xC (C ist die Anzahl der Klassen). Da ich Vorhersagen auf Pixelebene machen muss, muss ich es auf 321x321xC hochrechnen. Pytorch stellt eine Funktion zum Upsampling auf eine Ausgabegröße bereit, die ein Vielfaches der Vorhersagekartengröße ist. Also kann ich diese Methode hier nicht direkt anwenden.
Da dieser Schritt in jedes semantische Segmentierungsnetzwerk eingebunden ist, bin ich mir sicher, dass es einen Standardweg geben sollte, dies zu implementieren.
Ich würde alle Hinweise zu schätzen wissen. Danke im Voraus.
es könnte nach jeder upsample und nicht nur einmal am ende stabiler sein. – Shai
Gibt es eine gut akzeptierte Möglichkeit, Upsampling in der semantischen Segmentierung zu handhaben? Ich möchte die Standardpraktiken übernehmen, weil ich versuche, die Ergebnisse in einem Papier für ICLR Reproducibility Challenge zu reproduzieren, und sie erwähnen ihre Upsampling-Strategie nicht. Außerdem möchte ich, dass mein Netzwerk auf eine beliebige Eingabegröße hochtastet, so dass ich keine Angst haben muss, die Transformation auf Bilder und Beschriftungen zur Inferenzzeit anzuwenden (wo Bilder eine beliebige Größe haben können). Gibt es eine Möglichkeit, das zu tun? – ethelion
Sie können Dekonvolution auch als Upsampling-Methode versuchen. Aber in der Praxis arbeitet nur Nearest2D upsaming sehr gut –