Wenn Sie dreidimensionalen Raum auf ein zweidimensionales Bild projizieren, verlieren Sie Informationen über die Tiefe, und es ist schwierig, die Tiefeninformationen über die Tiefe von nur einem Bild zu erhalten. Tiefeninformationen können jedoch wiedergewonnen werden, wenn Sie ein anderes Bild derselben Szene aus einem anderen Blickwinkel haben. Dein Gehirn macht etwas Ähnliches, um Tiefe zu verstehen, indem es die "Bilder" von deinen zwei Augen benutzt, um dir die Tiefe der Welt um dich herum zu erklären.
Die grundlegenden Prinzipien der Stereorekonstruktion lassen sich am besten auf diese Weise erklären: Halten Sie jedes Objekt in der Nähe Ihrer Augen und schließen Sie dann ein Auge. Dann öffne das Auge und schließe das andere. Dann mach das gleiche nochmal, aber bewege das Objekt weiter von deinen Augen entfernt. Sie werden feststellen, dass sich das Objekt viel mehr bewegt, wenn Sie das Auge wechseln, wenn sich das Objekt in Ihrer Nähe befindet, als wenn es weiter entfernt ist. Im Kontext von zwei Bildern wird die Menge (in Pixeln) eines einzelnen Merkmals auf einem Bild zwischen zwei Bildern derselben Szene als "Disparität" bezeichnet. Um die relative Tiefe der Szene zu berechnen, nehmen Sie einfach (1,0/Disparität). Um die absolute Tiefe der Szene (z. B. in Metern oder einer Maßeinheit) zu erhalten, werden die Brennweite und die Grundlinie (Abstand zwischen den beiden Kamerastandorten) benötigt (und Gleichungen dafür werden später erörtert).
Jetzt, da Sie wissen, wie die Tiefe jedes Pixels berechnet wird, müssen Sie nur noch die Features vergleichen, damit Sie die Disparität berechnen können. Wenn Sie jedes Pixel in Ihrem ersten Bild im zweiten Bild iterativ finden würden, würde es schnell unhandlich werden. Das "Suchproblem" wird jedoch durch die Tatsache vereinfacht, dass zwischen zwei beliebigen Bildern eine "Epipolarlinie" existiert, die die möglichen Positionen für ein Merkmal in Bild1, das in Bild2 erscheint, erheblich verringert. Der einfachste Weg, dies zu visualisieren, ist, an zwei Kameras zu denken, die so angeordnet sind, dass der einzige Unterschied zwischen der ersten und der zweiten Kamera darin besteht, dass die zweite Kamera horizontal von der ersten bewegt wurde (beide Kameras sind auf gleicher Höhe) gleiche Tiefe von der Szene entfernt). Intuitiv sagen wir, dass ein Ball in Bild 1 bei einem bestimmten Pixel (x1, y1) ist.Vorausgesetzt, dass die Kameras ein Bild des gleichen Balls in der gleichen Höhe aufgenommen haben, ist es intuitiv, dass, während die Pixelposition des Features in Bild1 des Balls möglicherweise nicht an der gleichen Stelle in Bild2 ist, dass mindestens Das gleiche Merkmal in Bild2 wird dasselbe y wie in Bild1 haben, da sie beide auf der gleichen Höhe aufgenommen wurden. In diesem Fall wäre die Epipolarlinie vollständig horizontal. Bei Kenntnis dieser epipolaren Linie muss man nicht mehr nach image2 nach dem Ort eines gefundenen Merkmals image1 suchen, sondern es muss nur die epipolare Linie durch den Ort des Merkmals in image1 in image2 gesucht werden. Während die Kameras nicht ohne Unterschied zwischen ihren Positionen nebeneinander platziert werden müssen, mit Ausnahme der horizontalen Translation, macht sie die Berechnung viel einfacher und intuitiver, da sonst die Epipolarlinie geneigt wäre. Um also Merkmal1 von Bild1 an Merkmal2 in Bild2 anzupassen, muss man einfach eine Merkmalvergleichstechnik verwenden (die normalisierte Kreuzkorrelation wird oft verwendet), um zu bestimmen, welche Position von Merkmal2 in Bild2 am wahrscheinlichsten ist. Bei gegebener übereinstimmender Position eines Merkmals in beiden Bildern kann die Disparität berechnet werden, indem die Größe zwischen den zwei Pixeln genommen wird.
Nach Übereinstimmung der Merkmale wird die Disparität des Pixels durch einige Gleichungen auf Seite 7 dieser lecture notes berechnet, wobei b die Basislinie zwischen den Kameras und l die Brennweite in der gewünschten Maßeinheit ist Verwenden Sie (z. B. Zoll, Meter usw.). Wenn Sie nur nach einer relativen dreidimensionalen Position der Pixel in dem Bild suchen und sich nicht um die Position der Pixel kümmern (dh ein Punkt links von einem Bild wird immer noch in der Rekonstruktion links liegen, und a Punkt weiter zurück in das Bild wird weiter zurück in der Rekonstruktion), können beliebige Werte ungleich Null für Brennweite und Grundlinie gewählt werden. Diese Notizen erklären auch etwas mehr Intuition, warum das funktioniert, wenn Sie noch neugierig sind.
Fühlen Sie sich frei, irgendwelche Fragen zu stellen, und es gibt keinen Grund, auf sich selbst zu sein - so oder so suchen Sie Wissen und das ist lobenswert.
Hallo und willkommen zu stapeln Überlauf! Bitte versuchen Sie eine schönere Formatierung in Ihrer Frage zu verwenden. Entschuldige dich auch nicht, dass du das nicht weißt. Diese Konzepte können manchmal für Neulinge rätselhaft sein, also keine Sorge. – Ash