2017-12-21 6 views
1

Mit Blick auf jüngste Fortschritte der Objekterkennung mit Deep Learning, wie MASK-RCNN oder YOLO Ich habe festgestellt, dass die Bounding Box eines Objekts immer parallel zu den Bildgrenzen ist.Warum muss die Begrenzungsbox einer Objekterkennung CNN parallel zu den Bildgrenzen sein?

Liegt das nur an den Notationen der zur Verfügung gestellten Trainingsdaten, wie COCO oder liegt es an der zugrundeliegenden Architektur. Betrachtet man die letzten Schichten von Yolo oder RCNN - sollte es möglich sein, auf Rechtecken zu trainieren, die genau wie das Objekt im Bild gedreht sind?

Antwort

2

Diese Modelle sagen normalerweise einen Mittelpunkt in x und y sowie eine Breite und Höhe voraus. Das erklärt das ausgerichtete Ergebnis. Wenn die Trainingsdaten eine andere Form von Etiketten bereitstellen, sollte es leicht möglich sein, auch andere Begrenzungsrahmen zu lernen.

Verwandte Themen