2009-11-23 22 views
5

Können Sie mir bitte sagen, wie Sie Inhalte aus PDF-Dokumenten mit PHP extrahieren? Die Formatierung ist hier das Hauptproblem. Lassen Sie mich wissen, ob es Möglichkeiten gibt, Inhalte mit demselben Format zu extrahieren und in einem Online-Texteditor anzuzeigen.Extrahieren von Inhalt aus PDF mit PHP

Dank

Antwort

0

Soweit ich sehen kann, ist es nicht möglich, eine PDF in editierbare HTML mit PHP im laufenden Betrieb zu konvertieren, während die Formatierung beibehalten. Es gibt eine Reihe von Desktop-Apps, die alle versuchen, um Daten aus PDFs mit manchmal mehr, manchmal weniger zuverlässige Ergebnisse zu extrahieren. Ich würde sagen, das ist im Moment nicht realistisch und alles, was Sie tun können, ist, mit XPDF oder anderen Befehlszeilenprogrammen reinen Text zu extrahieren.

Mit diesem neuen XML-basierten PDF-Format kann es anders sein, aber davon weiß ich noch nichts.

Fühlen Sie sich frei, mich natürlich falsch zu beweisen - ich würde selbst sehr interessiert sein, wenn es eine Lösung gäbe.

1

Werfen Sie einen Blick auf XPDF

Ich nehme an, Sie es in einem Editor

$text = shell_exec("pdftotext $pdffile"); 

Wie für die Anzeige tun könnte? Nun, welcher Redakteur? Um bestimmte Formatierungsinformationen beizubehalten, und unter Verwendung des Webeditors HTML-Editor zu verstehen, können Sie ihn in HTML konvertieren. Vielleicht gibt es andere Werkzeuge, aber da ich xpdf verwende, bin ich auf this Konverter gestoßen, der auf xpdf basiert.

Basisnutzung

pdftohtml -noframes -c test.pdf test.html 

Um es in Ihrem bevorzugten Editor zu erhalten

echo file_get_contents('test.html'); 

Möglicherweise müssen Sie Dinge in PHP-Funktionen/Klassen wickeln. Und möglicherweise möchten Sie Sicherheitsmaßnahmen hinzufügen und was nicht.

+0

Jeder online benutzerdefinierte Editor für eine Website. – jose