Ich möchte ein Skript schreiben, um heruntergeladene Dokumente mit ihren Titeln automatisch umzubenennen, ich frage mich, ob es irgendwelche Bibliotheken oder Tricks gibt, die ich benutzen kann? Die PDFs werden alle von TeX erzeugt und sollten einige "formale" Strukturen haben.Titel aus PDF-Dateien extrahieren?
13
A
Antwort
13
Sie könnten versuchen, pyPdf und this example zu verwenden.
zum Beispiel:
from pyPdf import PdfFileWriter, PdfFileReader
def get_pdf_title(pdf_file_path):
with open(pdf_file_path) as f:
pdf_reader = PdfFileReader(f)
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('/home/user/Desktop/my.pdf')
2
würde ich wahrscheinlich mit Perl starten (da es immer das erste, was ich erreichen für). Es gibt several modules for handling PDFs. Wenn Sie eine konsistente Struktur haben, können Sie Regex verwenden, um die Titel zu erfassen.
2
0
all diesen Papieren sind von arXiv Unter der Annahme, könnten Sie stattdessen die arXiv-ID extrahieren (ich würde vermuten, dass die Suche nach "arXiv:" im PDF-Text würde die ID immer als ersten Treffer anzeigen.
Sobald Sie die arXiv Referenznummer haben (und haben eine pip install arxiv
getan), können Sie den Titel erhalten mit
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title
Verwandte Themen
- 1. Um Titel aus dem Inhalt zu extrahieren
- 2. URL und Titel aus dem Linkfeld in Drupal 8 extrahieren?
- 3. Extrahieren der meisten gelesenen Titel mit BS4
- 4. Extrahieren von Titel von Link in R
- 5. extrahieren Titel, Beschreibung und h1 bilden eine URL mit jsoup
- 6. Zahlen aus String extrahieren
- 7. JSON aus Text extrahieren
- 8. Protokollzeit aus Protokolldatei extrahieren
- 9. Daten aus Zellenfeld extrahieren
- 10. Extrahieren Zeichenfolge aus Text
- 11. Teilstring aus NSString extrahieren
- 12. Text aus PDF extrahieren
- 13. Wortliste aus Wordnet extrahieren
- 14. Ganzzahlen aus Bereichen extrahieren
- 15. Zeitzone aus String extrahieren
- 16. Informationen aus Bedingungsformel extrahieren
- 17. Ortungsinformationen aus Fotos extrahieren
- 18. Zahlen aus String extrahieren []
- 19. Zeilen aus Textdatei extrahieren
- 20. Entfernen von Titel aus wp_list_categories()
- 21. Körpertext aus E-Mail extrahieren PHP
- 22. Regulärer Ausdruck, um den Titel von der Webseite zu extrahieren
- 23. Extrahieren von Text aus APA Zitat
- 24. Python - Extrahieren von Elementen aus der Liste
- 25. Daten aus JSON extrahieren URL
- 26. Daten aus JSON String extrahieren
- 27. Extrahieren von RGB aus UIColor
- 28. Extrahieren von Text aus Hostnamen
- 29. Lat/Lon aus PostGIS extrahieren
- 30. Extrahieren von Daten aus .txt
Wo Sie die PDFs Titel aus zu tun bekommen? Müssen diese Informationen aus den PDF-Dokumenteigenschaften oder aus den PDF-Inhalten extrahiert werden oder extrahieren Sie diese Informationen aus einer anderen Quelle? – Rowan
Mögliches Duplikat [Extrahieren von Informationen aus PDF-Dateien von Forschungsarbeiten] (http://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers) – Seanny123