Mit Blick auf jüngste Fortschritte der Objekterkennung mit Deep Learning, wie MASK-RCNN oder YOLO Ich habe festgestellt, dass die Bounding Box eines Objekts immer parallel zu den Bildgrenzen ist.Warum muss die Begrenzungsbox einer Objekterkennung CNN parallel zu den Bildgrenzen sein?
Liegt das nur an den Notationen der zur Verfügung gestellten Trainingsdaten, wie COCO oder liegt es an der zugrundeliegenden Architektur. Betrachtet man die letzten Schichten von Yolo oder RCNN - sollte es möglich sein, auf Rechtecken zu trainieren, die genau wie das Objekt im Bild gedreht sind?