Ich analysierte .doc-Dateien mit POI und als Textdekorationen ins Spiel kamen, führte es mich zu Apache Tika. Ich kann jetzt Text mit einfachen Textdekorationen wie <i></i>
extrahieren, jedoch würde ich gerne in der Lage sein, komplexere Stile zu behandeln. Mein Dokument enthält verschiedene Schriftgrößen, tiefgestellt, hochgestellt und so weiter. Gibt es eine Möglichkeit, all diese Informationen mit Tika zu bekommen? Und wenn nicht, kann mir jemand auf ein geeigneteres Werkzeug hinweisen?Gibt es eine Möglichkeit, alle Stile aus einer Doc-Datei mit Apache Tika zu erhalten?
0
A
Antwort
1
Tika behandelt nicht viel mehr als <i> und <b> im Moment, wie Sie gefunden haben. Abhängig von der Komplexität der Dokumente können Sie POIs direkt verwenden (z. B. Tikas Parser als Beispiel). Sie können auch auf der Tika-Dev-Liste ([email protected]) nachfragen, ob Interesse besteht, Tika weitere Formatierungsfunktionen hinzuzufügen, oder vielleicht ein Ticket auf unserer Jira site öffnen.
Verwandte Themen
- 1. Gibt es eine einfache Möglichkeit, alle gängigen Modulerweiterungen zu erhalten?
- 2. Gibt es eine Möglichkeit, alle Attribute eines DOMEelements zu erhalten?
- 3. Gibt es eine Möglichkeit, den Ursprung einer Alarmbox zu erhalten?
- 4. Gibt es eine Möglichkeit, die TaskManager-ID in einer Map in Apache Flink zu erhalten?
- 5. Gibt es eine Möglichkeit, Apache mit New Relic zu überwachen?
- 6. Gibt es eine Möglichkeit, alle Aktionen einer UIToolbar zu behandeln?
- 7. Apache Tika maxStringLength erreicht
- 8. Gibt es eine Möglichkeit, ein Apache ANT-Ziel zu verallgemeinern?
- 9. Gibt es eine Möglichkeit, alle Dateien aus einem Blob azurblauen
- 10. Gibt es eine Möglichkeit, Apache langsame Anforderungen protokollieren zu lassen?
- 11. Gibt es eine Möglichkeit, die Anzahl der Datensätze aus einer Abfrage mit Zend-Framework zu erhalten?
- 12. Apache Tika und Json
- 13. Gibt es eine Möglichkeit, mit EPPlus "benannte" Zellen zu erhalten?
- 14. Gibt es eine Möglichkeit, Werte aus einer Map in einer MATLAB-Mex-Datei zu erhalten?
- 15. Ist es möglich, bestimmte Daten aus Excel-Tabelle (aus einer Spalte oder Zeile) mit Apache Tika in Java zu holen?
- 16. Gibt es eine Möglichkeit, eine Löschbestätigung aus einer Array-Liste zu erhalten?
- 17. Gibt es eine Möglichkeit, eine Cookie-Antwort schnell zu erhalten?
- 18. Gibt es eine Möglichkeit, alle Radion Schaltflächen deaktiviert zu haben
- 19. Gibt es eine einfache Möglichkeit, das Alphabet programmatisch zu erhalten?
- 20. Gibt es eine Möglichkeit, ALLE MIME-Typen zu erhalten, anstatt eine große Case-Anweisung zu schreiben?
- 21. So extrahieren Sie Inhalte aus. Pst-Datei mit Apache Tika?
- 22. Gibt es eine Möglichkeit, alle vorhandenen Gruppen automatisch zu durchlaufen?
- 23. Gibt es eine datenbankunabhängige Möglichkeit, Datenänderungsbenachrichtigungen auf Feldebene zu erhalten?
- 24. Gibt es eine Möglichkeit, HSQLDB-Daten zu erhalten?
- 25. Gibt es eine Möglichkeit, mehrere Listen aus einer nativen SQL-Abfrage im Ruhezustand zu erhalten?
- 26. Gibt es eine Möglichkeit, bestimmte UIImageView-Eigenschaften zu erhalten?
- 27. Gibt es eine ergänzende Möglichkeit, etwas wie Mausereignisse zu erhalten?
- 28. Gibt es eine Möglichkeit, Pixeldaten vom Internet Explorer zu erhalten?
- 29. Gibt es eine Möglichkeit, bestimmte PartionKeys aus einer Tabelle zu erhalten
- 30. Gibt es eine Möglichkeit, eine einzelne Aufzeichnung in einer Liste mit Shuffle() zufällig zu erhalten? - C#
POI war ein bisschen übereilt, mich wegzuschicken, denke ich. Ich habe es mit den Tika-Parsern untersucht, wie Sie es vorgeschlagen haben, und habe mich durchgesetzt. Vielen Dank! – nora