2009-07-04 1 views
1

Ich will nicht wissen, was es sagt, und es wird nicht mit Verzerrungen wie ein CAPTCHA befassen, ich will nur wissen, ob ein Haufen von Bildern beliebigen Text enthalten.

Schnelle Zeichenerkennung

Dies ist etwas, das auf ein paar ungenutzten Linux-Servern ausgeführt wird, und ein Cron-Job wird eine große Menge von Bildern mehrmals am Tag verarbeiten.

Eines der Dinge, die ich in dem Prozess tun möchte, ist, alle Bilder mit Text zu verwerfen. Ich habe nichts gegen einige falsche Positive, aber ich würde gerne eine Null-Prozent-Fehlerquote erreichen, wenn es darum geht, Bilder mit Text zu identifizieren, der möglichst weggeworfen werden sollte.

Antwort

2

Die Tesseract-OCR ist, was Google für Google Books verwendet. Versuche es.

+0

Das scheint ein bisschen schwer für das, was ich zu tun suche, ich komme vielleicht zurück, wenn ich nichts Leichteres finden kann. :) – joebert