2016-11-05 2 views
0

Ich habe einen Datensatz von 10 JPEG qualitativ hochwertige Luftbilder mit TXT-Dateien mit Informationen über die Begrenzungsbox jedes Fahrzeugs (Breite, Höhe, Winkel, x & y-Achse, ...). Dies ist ein Beispiel:Wie erstellt man einen Trainingsdatensatz für die Bildverarbeitung

@CATEGORY:GENERAL 

@IMAGE:2012-04-26-Muenchen-Tunnel_4K0G0010.JPG 

#format: id type center.x center.y size.width size.height angle 

0 30 1319 2338 35 11 56.451578 

1 30 1337 2350 42 14 57.817368 

2 30 224 3556 61 20 136.967797 

Wie soll ich eine Datenbank von Fahrzeugen schaffen in einem neuronalen Netzwerk zu trainieren, mit Caffe? Sollte ich photoshop verwenden, um jedes Fahrzeug zu beschneiden und sie eins nach dem anderen zu speichern? oder kann die txt-Dateien verwenden, um verschiedene Klassen von Fahrzeugen zu erstellen im Netzwerk mit etw wie Matlab trainieren?

+0

Wenn Sie nur 10 Bilder haben, werden Sie schneller sein, indem Sie dieses Handbuch in Photoshop, aber wenn Sie möchten, können Sie eine Bildbibliothek verwenden, um diese Dateien zu erhalten – Maaaaa

+0

danke für die Antwort. Es gibt 10 Bilder, aber mit vielen Fahrzeugen. Ich spreche tausende .. Muss ich jedes Fahrzeug durch seine genauen Grenzen trennen oder nur eine Bounding-Box um es wäre genug? –

Antwort

0

Mit so vielen Fahrzeugen würde ich es nicht von Hand machen. In Python können Sie das Bild in ein numpy Array laden und dann die Felder mit den Daten in den Dateien auswählen. Sie können mit den Winkeln umgehen, indem Sie das gesamte Array drehen und dann die Box genauso auswählen, wie Sie eine "normale" auswählen.

Wenn Sie eine andere Programmiersprache verwenden, sollten Sie in der Lage sein, diesen Ansatz auch zu verfolgen, Sie müssen nur die JPEG in eine Bitmap konvertieren und irgendwie in ein Array bekommen.

Ich kenne Caffe nicht, aber normalerweise ist es erforderlich, die genauen Grenzen zu erfassen, weil das neurale Netzwerk Kästen der gleichen Größe benötigt.

Verwandte Themen