2017-06-26 1 views
0



Ich habe diesen Artikel (link) gelesen und versuche den Algorithmus zu verstehen, der dort vorgestellt wurde.
So, jetzt verstehe ich fast alle Punkte aus diesem Artikel, aber habe Frage:Wie konvertiert man Videovolumes (nach dichter Abtastung) mit unterschiedlichen Skalen zum Deskriptor?

Wie konvertiert man Video-Volumes (nach dichten Stichproben) mit unterschiedlichen Skalen zum Deskriptor?

Wie ich verstehe, wenn ich Video mit 100 Frames mit 120 * 160 habe, dann verwende ich dichten Maßstab mit verschiedenen Maßstäben (zum Beispiel [5*5*5, 10*10*10, 20*20*20]), dann werde ich jeweils [15360, 1920, 240] Würfel erhalten. Aber danach muss ich Deskriptoren für jeden von ihnen machen, und die Länge der Deskriptoren muss gleich sein (in diesem Artikel ist die Länge des Deskriptors die gleiche wie die Größe des Cubes, also [125, 1000, 8000]).

Eine der Lösungen, die ich denke, ist für jeden Pixel Würfel in verschiedenen Maßstäben erstellen und danach verketten sie in einem Vektor mit der Länge 9125. Ist es richtig?

Antwort

0

Also, ich habe die Antwort gefunden.
Um jedes Pixel muss ich Würfel jeder Größe bauen (so wird es etwa 1920000 Würfel für jede Größe sein)

Verwandte Themen