Meine Anwendung ermöglicht es dem Benutzer, PDF-Dateien hochzuladen und sie auf dem Webserver zur späteren Ansicht zu speichern. Ich speichere den Namen der Datei, Ort, Größe, Upload-Datum, Benutzername usw. in einer SQL-Server-Datenbank.Schlüsselwörter automatisch aus einem PDF generieren
Ich möchte in der Lage sein, programmatisch, direkt nach dem Hochladen einer Datei, eine Liste von Schlüsselwörtern (vielleicht alles außer allgemeine Wörter) zu generieren und sie auch in der SQL-Datenbank zu speichern, damit nachfolgende Benutzer Stichwortsuchen durchführen können ...
Vorschläge zur Vorgehensweise? Gibt es diese Art von Routine bereits?
EDIT: Nur um meine Anforderungen zu klären, würde ich nicht mit OCR befassen, ich kenne nicht die Innenseiten von PDFs, aber ich verstehe, dass wenn es von einer App, wie Word-> generiert wurde PDF Print, der Text des Dokuments ist durchsuchbar ... also wirklich meine erste Aufgabe, und die Absicht meiner Frage ist, wie greife ich auf den Text einer PDF-Datei von einer asp.net App aus? OCR auf gescannten PDFs ist zu diesem Zeitpunkt wahrscheinlich über meine Anforderungen hinaus.
Eine Sache, die Sie beachten sollten, ist, dass viele PDFs tatsächlich Scans sind, mit Bildern von Text, aber nicht tatsächlichen Strings. Möchten Sie in solchen Fällen OCR durchführen? Nur etwas zu beachten. –