Ich habe einige PDF-Dateien erhalten, verwenden PDFBox ich sie in Text und gespeichert in Textdateien umgewandelt haben,Wie Rohtext aus PDF-Datei mit Java
- Hyperlinks entfernen Jetzt aus den Textdateien Ich möchte
- Alle Sonderzeichen
- Leerzeilen
- Header Fußzeilen von pDF-Dateien
- „1)“, „2)“, „a)“, „Kugeln“ usw.
Ich möchte von Zeile wie diese gültige Textzeile erhalten:
Wir OntoGain, ein Verfahren zur Ontologie Lernen von Mehrwort-Konzept Begriffe aus Klartext extrahiert vorschlagen. OntoGain folgt einem Ontologie-Lernprozess, der durch unterschiedliche Verarbeitungsschichten definiert wird. Aufbauend auf der Termextraktion wird eine Konzepthierarchie gebildet, indem die extrahierten Konzepte gruppiert werden. Die abgeleitete Begriffstaxonomie wird dann mit nicht-taxonomischen Beziehungen angereichert. Mehrere verschiedene Methoden des Standes der Technik wurden untersucht, um jede Schicht zu implementieren. OntoGain basiert auf Begriffen mit mehreren Wörtern, da Mehrwort- oder zusammengesetzte Begriffe mit einer festeren und ausgeprägteren Semantik als einfache Begriffe aus einem einzelnen Wort versehen sind. Wir haben uns für eine hierarchische Clustering-Methode und einen FCA-Algorithmus (Formal Conceptual Analysis) entschieden, um den Begriff Taxonomie zu erstellen. Außerdem wird ein Assoziationsregelalgorithmus angewendet, um nicht-taxonomische Beziehungen aufzudecken. Eine Methode, die versucht, die am besten geeignete Verallgemeinerungsebene zwischen den Konzepten einer Beziehung durchzuführen, wird ebenfalls implementiert. Um den Machbarkeitsnachweis zu erbringen, wird ein Systemprototyp implementiert. Der OntoGain ermöglicht die Transformation der abgeleiteten Ontologie in OWL mit Jena Semantic Web Framework1. OntoGain wird auf zwei getrennte Datenquellen angewendet, einen medizinischen und einen Computerkorpus, und seine Ergebnisse werden mit ähnlichen Ergebnissen verglichen, die von Text2Onto, einer hochmodernen Ontologie-Lernmethode, erhalten wurden. Die Analyse von 11,5 CCD1.1-Ergebnissen zeigt, dass OntoGain besser abschneidet als Text2Onto in Bezug auf die Genauigkeit, um mehr korrekte Konzepte zu extrahieren, während selektiver weniger, aber sinnvollere Konzepte extrahiert werden.
Wie kann ich das erreichen?
Verwendung Regex Ihre Bedürfnisse zu tun –
Außerdem: * Alle Sonderzeichen * Welche Zeichen sind für Sie besonders? - * Kopfzeilen Fußzeilen * Wie erwarten Sie, Kopf- und Fußzeilen nach der Extraktion zu erkennen? Sie sollten sie am Anfang nicht extrahieren, d. H. Mit 'PDFTextStripperByArea' - * 1), 2) a), Kugeln usw. ** ** usw. ** ist immer eine Schwierigkeit in den Spezifikationen. – mkl
außer Punkt sollte es alle Sonderzeichen zu entfernen ($ # @!%^& *() {} "? /, <>), Und es sollte Text mit Hyperlinks entfernen – user2609542