Ich habe 55 000 Bilddateien (im JPG- und TIFF-Format), die Bilder aus einem Buch sind.Bildverarbeitung/Superlicht OCR
Die Struktur jeder Seite ist dies:
etwas Text
--- (horizontale Linie) ---
eine Reihe
etwas Text
--- (horizontale Linie) ---
eine andere Nummer
some text
Es von null bis vier horizontalen Linien auf einer bestimmten Seite sein kann.
Ich muss herausfinden, was die Nummer ist, nur unter der horizontalen Linie.
ABER, Zahlen streng aufeinander folgen, beginnend bei eins auf der ersten Seite, so um die Nummer zu finden, muss ich es nicht lesen: Ich konnte nur das Vorhandensein von horizontalen Linien erkennen, die beide sein sollten einfacher und sicherer als zu versuchen, die Seite zu erkennen, um die Zahlen zu erkennen.
würde der Algorithmus, im Grunde sein:
for each image
count horizontal lines
print image name, number of horizontal lines
next image
Die Frage ist: Was ist die beste Bild Bibliothek/Sprache sein würde, die „zählen horizontale Linien“ Teil zu tun?
Warum sollte er OCR brauchen, wenn er nur die Zeilen zählen muss? –
Die Frage war, wie man das Problem ohne OCR – Ivan
@ kigurai @ Ivan, wenn OCR zu lösen, trivial ist, warum nicht. Er geht davon aus, dass es einen Weg gibt, "der einfacher und sicherer sein sollte, als zu versuchen, die Seite zu erkennen, um die Zahlen zu erkennen." – pageman