2009-05-21 7 views
2

Wir brauchen eine hochvolumige Scannen und OCR-LösungHigh-Volume-Scannen und OCR automatische Lösung?

wir über Digitalisieren etwa 4000 dokumentiert einen Tag talkin, und als pdf-Datei mit Text (mit verstecktem Text) Speichern ...

die Lösung lassen soll die Betreiber ein Dokument scannen und automatisch die Dateien in einer bestimmten Netzwerk-Ressource speichern, die von einer App genommen werden, dass es zu einer DB uploads ...

wir eine Unternehmenslösung von Kofax http://www.kofax.com/

evaluieren was andere Produkte kennen Sie?

Erfahrung mit ähnlichen Anforderungen?

jede Open Source (oder zumindest Accessible) Lösung?

com, activex api Unterstützung?

Antwort

0

Kofax ist nicht sehr nützlich oder benutzerfreundlich (nach meinen Kollegen arbeitet mit der Grafschaft). Es ist ausreichend, aber nicht gut.

Wir verwenden eine komplette Adobe-Lösung. Details zu folgen (Ich bin nicht verantwortlich für den Bereich, so dass ich einige Informationen für Sie sammeln muss).

Update: Wir verwenden

Adobe Acrobat 3.0
Zwei RICOH-Farbscanner IS760D mit ADF erfassen
Acrobat Standard oder Professional (je nach Benutzer)

Wir haben eine umfangreiche Bibliothek (fast 6.000 Dokumente) mit Hunderttausenden von gescannten Seiten verfügbar. Der Computer, der das Scannen durchführt, hat einen Dongle, den wir kaufen (250.000 Scans, bis wir ein "Update" kaufen müssen); Ich habe die Kosten nicht zur Verfügung, da der Gentleman, der das erledigt, für den Tag nach Hause gegangen ist, aber ich erinnere mich, dass es in den Mikro-Cent pro Seite war.

Wir scannen oft Dokumente mit mehreren hundert Seiten, die an diesem Tag gemacht werden müssen, und wir haben kein Problem damit, diese Aufgabe zu erledigen.

Ein Link zu einigen unserer Bemühungen (ein Web-Front-End oder Arten, zu unserer Bibliothek) ist verfügbar unter http://acequia.ccrfcd.org/FileLibrary2/FileLibrary.aspx, wenn Sie eine Vorstellung davon bekommen möchten, was wir getan haben. Wenn Sie diese PDFs in eine Datenbank schreiben, wäre es ziemlich einfach, eine Anwendung (vielleicht einen Dienst) zu erstellen, um ein Verzeichnis zu überwachen und jedes PDF zu holen, das nach der Ausführung von Capture dort erscheint. Kopieren Sie die Informationen in die Datenbank , dann lösche es entweder oder bewege es zu seinem neuen Zuhause.

+0

vielen Dank für die Info, michael, können, wenn Sie liefern die Kosten pro pega sagen Sie mir, es ist wunderbar ... durch die Art und Weise sein wird, tun jeder Anbieter eine Politik pro Seite implementiert? ?? Ich denke, Kofax bietet eine ähnliche Lösung, einen Dongle und Sie zahlen für jede gescannte Seite ... – opensas

4

Es gibt viele Anbieter von Scan-Produkten, die tun können, was Sie wollen - scannen, indexieren, PDF mit OCR-Overlay generieren (persönlich bevorzuge ich OCR-Unterlage in einem PDF). Diese Anforderungen sind für einen Anbieter, der sich auf das Scannen spezialisiert hat, ziemlich trivial.Um nur ein paar andere Anbieter/Produkte zusätzlich zu Kofax:

  • EMC/Captiva InputAccel Produkt
  • Datacap
  • eCopy Sharescan
  • Verity/Cardiff/Autonomy

Viele Dokument Verwaltungslösungen verfügen über integrierte Scan-Frontends, sind jedoch normalerweise nicht so funktional wie die speziellen Capture-Produkte. Fast alle diese Lösungen haben COM/ActiveX API-Unterstützung. Ich kenne keine Open-Source-Lösungen zum Scannen, aber ich habe auch nie wirklich nach einem gesucht.

Die meisten Anbieter von Scansoftware verwenden eine "Volumen" - oder "Kapazitäts" -Lizenz. In der Regel wird das Volumen am Ende der Laufzeit erneuert (d. H. 1 Mio. Seiten pro Jahr - automatische Verlängerung jedes Jahr ohne zusätzliche Kosten). Daher zahlen Sie nicht "pro Seite" streng in dem Sinne, dass wenn Sie eine Kapazität von 1M Bilder pro Jahr kaufen und Sie nur 500K Seiten scannen, erhalten Sie keine Rückerstattung. Es ist möglich, obwohl es viel seltener ist, ein einmaliges Volumen zu haben, das nicht automatisch erneuert wird, und wenn es abläuft, müssten Sie zusätzliches Volumen kaufen. Die meisten Anbieter entfernen sich von Dongles, um die Lautstärke zu kontrollieren, und ziehen zur Softwarelizenzierung über.

Eine Randnotiz über Kofax:

Kofax hat in der Vergangenheit durch ein System von Value Added Resellers verkauft worden, so dass die Qualität der verschiedenen Implementierungen können sehr unterschiedlich sein. Darüber hinaus ist es in hohem Maße anpassbar und kommt in einer Vielzahl von Geschmacksrichtungen mit vielen Zusatzmodulen, so dass das Kofax-System eines Kunden sich signifikant von anderen Systemen unterscheiden kann.

Kofax wird in Unternehmenssystemen zum Scannen und automatischen Erfassen von Millionen von Dokumenten pro Jahr verwendet. Es hat einen bedeutenden Anteil des Marktanteils beim Scannen von Dokumenten. Nein, ich bin kein Kofax-Fanboy, wenn ich es wäre, hätte ich keine Konkurrenzprodukte erwähnt; aber ich bin damit sehr vertraut. Wie die anderen Produkte auf dem Markt hat es Stärken und Schwächen. Mir ist klar, dass Michael nur das weitergab, was er gehört hatte, aber ich konnte einfach nicht zulassen, dass diese weitreichende Verallgemeinerung ohne Kommentar passierte. Ein Produkt zu nennen, das einen signifikanten Marktanteil hat, ist "nicht nützlich oder benutzerfreundlich" für das Scannen. Es ist so, als würde man sagen "Windows ist kein nützliches Server-Betriebssystem". Es ist einfach zu weit gefasst.

Cheers,

Brian

+0

Gute Antwort auf dieses seltsam unpopuläre Thema (High-Volume-Bilderfassung). – Lunatik

0

Wie gut wollen Sie Ihre OCR sein? Brauchen Sie alle Inhalte, die für Menschen lesbar sind, oder benötigen Sie nur einige Inhalte, um Dokumente klassifizieren zu können (Kundennummer; Art des Dokuments; Barcodes ...).

http://www.irislink.com ist ein Unternehmen, das Lösungen zum Scannen und Klassifizieren von Dokumenten entwickelt.
Ihre Software ist in mehreren Marken von Multifunktionsgeräten und Consumer-Scannern enthalten. Das Unternehmen ist mehr darauf ausgerichtet, Informationen zu extrahieren und zu verwenden (zB automatische Eingabe von Rechnungen in Buchhaltungssoftware).
Meine Erfahrung ist, dass es den OCR-Text besser behandelt (Korrektur von Wörtern usw.)) als Kofax (wir benutzen beide); Kofax kann jedoch erweitert werden, um ein besseres Level zu erreichen (dies bedeutet mehr Setup-Arbeit und mehr Wartung).

Beide Software sind wirklich nützlich, wie sie Dokumente behandeln.
Wenn Sie nur die Dokumente scannen möchten; In PDF konvertieren und auf einer Netzwerkfreigabe speichern; Sie haben vielleicht genug, um einen guten Scanner zu kaufen und die mitgelieferte Software zu verwenden.
Sie können auch das Tesseract-Projekt ausprobieren; Es ist eine Open-Source-OCR-Engine mit guten Ergebnissen.

0

Sie können ChronoScan versuchen, es hat freie OCR durch Tesseract, und hat Forms Recognition Options, und es ist kostenlos für nicht-kommerzielle Nutzung.

Die Software ist in und fortgeschrittener Entwicklungsphase, und Sie haben ein Forum, um direkt mit den Entwicklern zu sprechen.

http://www.chronoscan.org Short video reading forms