Meine Aufgabe: Ich muss Faltungs neuronalen Netzwerk zu erkennen Kfz-Kennzeichen erkennen.Training Faltungs neuronalen Netzwerk zu erkennen Auto Kennzeichen
Input: Bild (Array von Pixeln (i kann es normalisieren))
Output: Informationen über Position des Nummernschilds.
Fragen:
1) Welche Form am besten ist, um ein Ergebnis zu bekommen? Zum Beispiel: wenn ich Ziffern erkennen will, verwende ich einen Vektor mit 10 Elementen, deren Werte die Wahrscheinlichkeit der entsprechenden Ziffer enthalten. Aber ich weiß nicht, welches Ausgabeformular in meinem Fall verwendet wird.
2) Welche Größe ist geeigneter für Eingabebilder?
3) Dieses Problem hängt mit dem ersten zusammen. Wie kann ich meinen Trainingsdatensatz erstellen? Meine Varianten: Maske der Bits, wobei 1 bedeutet, dass hier ein Pixel des Nummernschilds ist, und JSON Beschreibung der Platte rect (x, y, Breite, Höhe). Und welches Programm kann ich zum Mapping verwenden?
Es tut mir leid, wenn meine Fragen an Sie scheinen zu dumm :)
Willkommen bei StackOverflow. Bitte lesen und befolgen Sie die Buchungsrichtlinien in der Hilfe. [zum Thema] (http://stackoverflow.com/help/on-topic) und [how to ask] (http://stackoverflow.com/help/how-to-ask) gilt hier. – Prune